- 课程概览
- 授课讲师
- 课程大纲
- 课程概览
- 授课讲师
- 课程大纲
在今天的数字时代,数据已成为企业和组织中最宝贵的资产之一。为了有效地管理和分析这些海量数据,分布式计算和存储系统已经变得至关重要。本课程将带领同学深入探讨 Hadoop 及其生态圈,这一强大的开源工具集,旨在处理大规模数据处理和分析的挑战。
课程概览
第一部分:Hadoop 基础
首先,我们将介绍 Hadoop 分布式文件系统(HDFS)。HDFS 允许您在大规模集群上存储数据,确保高可用性和容错性。您将了解如何配置、管理和操作 HDFS,以便为大规模数据存储提供坚实的基础。
接着,我们将深入研究 MapReduce 分布式计算框架。MapReduce 是一种用于处理分布式数据的编程模型,它使我们能够轻松地处理大规模数据集,进行复杂的数据转换和分析。
第二部分:分布式协调与辅助系统
在本课程的下一部分,我们将介绍 ZooKeeper 分布式协调服务。ZooKeeper 提供了一种可靠的方式来协调分布式系统中的各个组件,确保它们能够协同工作。您将学会如何配置和使用 ZooKeeper 来管理分布式应用程序的状态和配置信息。
接下来,我们将研究 Hadoop 的生态圈中的一些关键辅助系统,包括:
-
Hive: Hive 是一个数据仓库工具,它允许您使用 SQL 类似的语言来查询和分析存储在 Hadoop 中的数据。您将学会如何创建表、编写查询,并将 Hive 与其他 Hadoop 组件集成。
-
HBase: HBase 是一个分布式、高性能的 NoSQL 数据库,专为处理大规模数据集设计。您将了解如何在 HBase 中存储和检索数据,并了解其在实时数据处理中的应用。
-
Flume 和 Sqoop: Flume 用于可靠地收集、汇总和移动大规模数据,而 Sqoop 则用于将数据传输到和从关系型数据库中。这两个工具对于将外部数据引入 Hadoop 生态系统或将数据导出到其他系统都非常有用。
通过本课程,您将获得深入了解 Hadoop 及其生态圈的能力,掌握分布式存储、计算和协调的关键概念,以及如何应用这些技能来解决实际的大数据挑战。无论您是数据工程师、数据科学家还是 IT 专业人士,都将受益于这门课程,因为它将为您提供处理和分析大规模数据的强大工具和技术。希望您享受学习的过程!
课程大纲
- 第1章 初识Hadoop
-     第1节大数据简介
-     第2节大数据技术核心需求
-     第3节Hadoop简介
-     第4节离线数据分析流程介绍
-     第5节大数据学习流程
- 第2章搭建Hadoop集群
-     第1节安装准备
-     第2节Linux基本命令
-     第3节Hadoop集群搭建
-     第4节Hadoop集群测试
- 第3章HDFS分布式文件系统
-     第1节HDFS的简介
-     第2节HDFS的架构和原理
-     第3节HDFS的Shell命令
-     第4节Java程序操作HDFS
- 第4章MapReduce分布式计算框架
-     第1节认识MapReduce
-     第2节MapReduce作业解析
-     第3节MapReduce工作原理
-     第4节Shuffle阶段
- 第5章Zookeeper分布式协调服务
-     第1节认识Zookeeper
-     第2节Zookeeper的安装和常用命令
-     第3节Zookeeper客户端编程
-     第4节Zookeeper典型应用场景
- 第6章Hadoop2.0新特性
-     第1节Hadoop2.0新特性
-     第2节 Yarn资源管理框架
-     第3节Hadoop的HA模式
- 第7章Hive
-     第1节数据仓库简介
-     第2节认识Hive
-     第3节Hive安装
-     第4节Hive数据类型
-     第5节Hive数据库操作
-     第6节Hive表
-     第7节Hive表的查询
-     第8节Hive函数
-     第9节Hive 案例分析
- 第8章HBase分布式存储系统
-     第1节认识HBase
-     第2节HBase表设计
-     第3节HBase安装
-     第4节HBase Shell常用操作
- 第9章 Flume
-     第1节认识Flume
-     第2节Flume基本组件
-     第3节Flume安装
-     第4节Flume数据流模型
-     第5节采集案例
- 第10章Sqoop
-     第1节认识Sqoop
-     第2节Sqoop安装
-     第3节Sqoop命令
-     第4节Sqoop数据导入
-     第5节Sqoop数据导出
-     第6节Sqoop job
节数 | 上课时间 | 星期一 | 星期二 | 星期三 | 星期四 | 星期五 | 星期六 | 星期天 |
---|---|---|---|---|---|---|---|---|
第1节 | 08:00 - 08:40 | |||||||
第2节 | 09:00 - 09:40 | |||||||
第3节 | 10:00 - 10:40 | |||||||
第4节 | 11:00 - 11:40 | |||||||
第5节 | 14:00 - 14:40 | |||||||
第6节 | 15:00 - 15:40 | |||||||
第7节 | 16:00 - 16:40 | |||||||
第8节 | 17:00 - 17:40 |
天数 | 上课日期 | 上课时间 | 内容 |
---|
相关课件 更多
-
pptx
第10章 Sqoop
大小:487.55KB
2023-11-06
-
pptx
第9章 Flume
大小:316.23KB
2023-11-06
-
pptx
第8章 HBase分布式存储系统
大小:538.4KB
2023-11-06
-
pptx
第7章 Hive
大小:1.21MB
2023-11-06
-
pptx
第6章 Hadoop2.0新特性
大小:1.1MB
2023-11-06
-
pptx
第5章 Zookeeper分布式协调服务
大小:366.55KB
2023-11-06