一、Hadoop关键技术
学习如何安装运行各种大数据软件以及如何进行初级编程实践,包括Hadoop、HDFS、MapReduce等安装、操作和编程。其中会介绍一些Hadoop的应用案例,并通过一些实验初步了解Hadoop的操作。
第1章 Hadoop概论
1.1 缘于搜索的Hadoop
1.1.1 Hadoop简介
1.1.2 Hadoop发展
1.2 大数据、Hadoop的关系
1.3 Hadoop设计思想与架构
1.3.1 数据存储与切分
1.3.2 MapReduce模型
1.3.3 MPI和MapReduce
第2章 Hadoop存储系统
2.1 基本概念
2.1.1 NameNode
2.1.2 DateNode
2.1.3 客户端
2.1.4 块
2.2 HDFS的特性和目标
2.2.1 HDFS的特性
2.2.2 HDFS的目标
2.3 HDFS架构
2.3.1 Master/Slave架构
2.3.2 NameNode和Secondary NameNode通信模型
2.3.3 文件存取机制
2.4 HDFS核心设计
2.5 HDFS权限管理
第3章 HDFS的使用
3.1 HDFS环境准备
3.2 HDFS命令的使用
3.3 HDFS Java API的使用方法
第4章 MapReduce计算框架
4.1 Hadoop MapReduce简介
4.2 MapReduce模型
4.2.1 MapReduce编程模型
4.2.2 MapReduce实现原理
第5章 Hadoop命令系统
5.1 Hadoop命令系统的组成
5.2 用户命令
第6章 Hadoop作业调度系统
6.1 作业调度概述
6.1.1 相关概念
6.1.2 作业调度流程
6.1.3 集群资源组织与管理
6.1.4 队列控制和权限管理
6.1.5 插件式调度框架
第7章 Hadoop集群搭建
7.1 Hadoop版本的选择
7.2 集群基础硬件需求
7.3 安装Hadoop
实验
实验一:熟悉常用的 Linux 操作和 Hadoop 操作
实验二:熟悉常用的 HDFS 操作
实验三:熟悉常用的 HBase 操作
实验四:NoSQL 和关系数据库的操作比较
实验五:MapReduce 初级编程实践
二、Spark内存计算框架
介绍为什么会出现Spark?Spark是什么?Spark能做什么?还有Spark安装、使用以及编程基础,并初步了解Spark SQL等核心技术。其中穿插一些Spark的典型应用案例,并通过动手实验初步体验Spark的应用。
第8章 Spark概述
8.3.1 Spark的出现与发展
8.3.2 Spark协议族
8.3.3 Spark的应用及优势
第9章 Spark原理
9.1 Spark工作原理
9.2 Spark架构及运行机制
9.2.1 Spark系统架构与节点角色
9.2.2 Spark作业执行过程
9.2.3 应用初始化
9.2.4 构建RDD有向无环图
9.2.5RDD有向无环图拆分
第10章 RDD算子
10.1 创建算子
10.1.1 基于集合类型数据创建RDD
10.1.2 基于外部数据创建RDD
10.2 transformation变换算子
10.2.1对Value型RDD进行变换
10.2.2对Key/Value型RDD进行变换
10.3 action行动算子
10.3.1 数据运算类行动算子
10.3.2 存储型行动算子
第11章 安装和使用Spark
11.1 安装Spark
11.2 编写和运行Spark程序
实验:
实验1:Linux系统基本命令和Hadoop使用方法
实验2:RDD基本操作
实验3:迭代式算法编程实践
实验4:自定义分匙、排序、合并
实验5:利用DataFrame实现数据库的读写
实验 6:利用 Spark Streaming 实现流数据处理