- 课程概览
- 授课讲师
- 课程大纲
- 课程概览
- 授课讲师
- 课程大纲
滴滴拥有超过4.5亿用户,在中国400多个城市开展服务,每天的订单量高达2500W,每天要处理的数据量4500TB。仅仅在北京,工作日的早高峰一分钟内就会有超过1600人在使用滴滴打车。通过对这些数据进行分析,了解到不同区域、不同时段运营情况。
课程概览
我们的目标是分析用户打车的订单,进行各类的指标计算(指标,例如:订单的总数、订单的总支付金额等等)。我们之前学习过了HDFS以及Hive,所以,我们可以将数据上传到HDFS保存下来,每天都可以进行上传,HDFS可以保存海量的数据。同时,我们学习过了Hive,可以将HDFS中的数据文件,对应到Hive的表中。但需要考虑一个问题,就是业务系统的日志数据不一定是能够直接进行分析的,例如:我们需要分析不同时段的订单占比,凌晨有多少订单、早上有多少订单、上午有多少订单等。但是,我们发现,原始的日志文件中,并没有区分该订单的是哪个时间段的字段。所以,我们需要对日志文件的原始数据进行预处理,才能进行分析。
- 我们会有这么几类数据要考虑:
-
原始日志数据(业务系统中保存的日志文件数据)
-
预处理后的数据
-
分析结果数据
这些数据我们都通过Hive来进行处理,因为Hive可以将数据映射为一张张的表,然后就可以通过编写HQL来处理数据了,简单、快捷、高效。为了区分以上这些数据,我们将这些数据对应的表分别保存在不同的数据库中。
授课讲师

熟悉Hadoop,Spark,Redis,Zookeeper,Kafka,ElasticSearch,Sqoop,Flume,Flink等大数据组件;熟悉Mysql,Hbase等数据库编程;熟悉使用Hive 数据仓库;熟悉使用maven,spring,springmvc,hibernate,struts,mybatis等开源框架; 并能熟练运用各级框架的组合开发。 教学特色:良好课堂组织能力,时刻关注每一位学生,充分调动注意力,通过设计新颖有趣方式来激发学习欲望,教学过程注重基础知识掌握,以及对学生解决问题的能力培养,教学环节层层递进,实现课堂高效。
课程大纲
- 第1章项目业务背景介绍
-     第1节项目业务背景介绍
- 第2章构建数据仓库
-     第1节数仓分层建库
- 第3章创建表
-     第1节ods建表
- 第4章添加分区
-     第1节ods分区
- 第5章数据上传HDFS
-     第1节ods上传数据
- 第6章数据预处理
-     第1节数据处理及查询
-     第2节order数据处理并写入宽表
- 第7章订单分析
-     第1节总订单笔数分析
-     第2节预约订单/非预约订单占比分析
-     第3节不同时段订单占比分析
-     第4节不同地域订单占比分析(省份)
-     第5节不同年龄段订单占比分析
- 第8章sqoop数据导出
-     第1节sqoop数据导出
- 第9章Superset对分析指标可视化
-     第1节Superset对分析指标可视化
节数 | 上课时间 | 星期一 | 星期二 | 星期三 | 星期四 | 星期五 | 星期六 | 星期天 |
---|---|---|---|---|---|---|---|---|
第1节 | 08:00 - 08:40 | |||||||
第2节 | 09:00 - 09:40 | |||||||
第3节 | 10:00 - 10:40 | |||||||
第4节 | 11:00 - 11:40 | |||||||
第5节 | 14:00 - 14:40 | |||||||
第6节 | 15:00 - 15:40 | |||||||
第7节 | 16:00 - 16:40 | |||||||
第8节 | 17:00 - 17:40 |
天数 | 上课日期 | 上课时间 | 内容 |
---|
相关课件 更多
-
docx
数仓实战滴滴出行
大小:4.69MB
2023-06-12