- 课程概览
- 授课讲师
- 课程大纲
- 课程概览
- 授课讲师
- 课程大纲
掌握常用的大数据挖掘流程(包括数据预处理、特征工程、建模、模型评估与优化);熟悉使用PySpark进行大数据挖掘的流程;掌握数据湖的基本概念和数据入湖操作技能;掌握数据治理方法论,以及华为数据治理中心DataArts Studio的特点
课程概览
授课讲师

熟悉Hadoop,Spark,Redis,Zookeeper,Kafka,ElasticSearch,Sqoop,Flume,Flink等大数据组件;熟悉Mysql,Hbase等数据库编程;熟悉使用Hive 数据仓库;熟悉使用maven,spring,springmvc,hibernate,struts,mybatis等开源框架; 并能熟练运用各级框架的组合开发。 教学特色:良好课堂组织能力,时刻关注每一位学生,充分调动注意力,通过设计新颖有趣方式来激发学习欲望,教学过程注重基础知识掌握,以及对学生解决问题的能力培养,教学环节层层递进,实现课堂高效。
课程大纲
- 第1章数据挖掘介绍
-     第1节数据挖掘概述
-     第2节数据挖掘流程
-     第3节数据、属性和度量
- 第2章预备知识
-     第1节矩阵和线性代数
-     第2节概率论和数理统计
-     第3节信息熵、基尼指数、最优化
-     第4节数学实验
-     第5节python语言基础
-     第6节数据类型
-     第7节判断与循环
-     第8节函数与面向对象
-     第9节常用模块
-     第10节正则表达式
-     第11节文件操作
-     第12节数据采集与爬虫
-     第13节数据可视化
- 第3章数据预处理
-     第1节数据抽取、转换、加载
-     第2节数据清洗
-     第3节特征处理
-     第4节不均衡数据处理
- 第4章特征选择与降维
-     第1节特征选择
-     第2节降维
- 第5章有监督学习
-     第1节有监督学习得预备知识
-     第2节线性回归
-     第3节逻辑回归
-     第4节KNN
-     第5节朴素贝叶斯和SVM
-     第6节决策树
-     第7节集成算法
- 第6章无监督学习
-     第1节聚类算法
-     第2节Apriori算法
-     第3节FP-growth
-     第4节层次聚类综合实战
- 第7章Spark MLib数据挖掘
-     第1节基础入门
-     第2节环境安装与基础操作
-     第3节概要统计
-     第4节相关性分析
-     第5节分层抽样·
-     第6节假设性检测
-     第7节核密度估算
- 第8章大数据架构和大数据治理
-     第1节大数据架构和大数据治理
- 第9章大数据挖掘
-     第1节大数据挖掘
- 第10章综合应用大实验
-     第1节综合大实验
- 第11章综合实战
-     第1节显示数据特征
-     第2节数据可视化显示
-     第3节数据分析
-     第4节数据挖掘
节数 | 上课时间 | 星期一 | 星期二 | 星期三 | 星期四 | 星期五 | 星期六 | 星期天 |
---|---|---|---|---|---|---|---|---|
第1节 | 08:00 - 08:40 | |||||||
第2节 | 09:00 - 09:40 | |||||||
第3节 | 10:00 - 10:40 | |||||||
第4节 | 11:00 - 11:40 | |||||||
第5节 | 14:00 - 14:40 | |||||||
第6节 | 15:00 - 15:40 | |||||||
第7节 | 16:00 - 16:40 | |||||||
第8节 | 17:00 - 17:40 |
天数 | 上课日期 | 上课时间 | 内容 |
---|
相关课件 更多
-
pptx
第十二章 大数据挖掘
大小:1.07MB
2023-07-26
-
pptx
第十一章 大数据架构和大数据治理
大小:1.51MB
2023-07-26
-
pptx
第十章 华为机器学习服务MLS
大小:3.29MB
2023-07-26
-
pptx
第九章 Spark MLlib数据挖掘
大小:2.31MB
2023-07-26
-
pptx
第八章 数据挖掘综合应用
大小:1.47MB
2023-07-26
-
pptx
第七章 模型评估与优化
大小:3.12MB
2023-07-26