课程培训
大数据平台搭建与高性能计算培训课程

 

培训目标:

· 彻底理解Hadoop代表的云计算实现技术的能力;

· 具备开发自己网盘的能力;

· 具备修改HDFS源码和具体源码实现的能力;

· 具备掌握MapReduce内部运行和实现细节并改造MapReduce的能力;

· 具备掌握Hive企业级开发和管理的能力;

· 掌握Spark的企业级开发的所有核心内容,包括Spark架构设计、Spark内核剖析、Shark、SparkSQL、SparkStreaming、、机器学习MLlib、SparkonYarn、JobServer等;

· 掌握Spark和Hadoop协同工作,能够通过Spark和Hadoop轻松应对大数据的业务需求;

· 掌握企业线上生产系统中应用Spark/Hadoop成功案例,以及与现有企业BI平台整合的方案。

· 掌握Flink的的体系架构,以及企业线上生产系统中应用Flink成功案例

· 掌握Flink Runtime、DataSet API、DataStream API,以及Flink SQL的使用

培训对象:大数据架构师、数据平台开发工程师

学员基础:具有一定的数据设计、开发和管理经验

授课方式:定制课程 + 案例讲解 + 小组讨论,60%案例讲解,40%实践演练

主题

章节

详细内容

大数据平台概览

大数据处理平台架构基础

大数据的产生背景、发展历程
大数据和云计算的关系
大数据应用需求以及潜在价值分析
业界最新的大数据技术发展态势与应用趋势
大数据项目的技术选型与大数据处理系统架构设计
“互联网+”时代下的电子商务、制造业、零售批发业、电信运营商、互联网金融业、网上银行、电子政务、移动互联网、教育信息化等行业应用实践与应用案例剖析

业界主流的大数据技术产品与项目解决方案

国内外主流的大数据解决方案介绍
当前大数据解决方案与传统数据库方案的剖析比较
Apache大数据平台方案剖析
CDH大数据平台方案剖析
HDP大数据平台方案剖析
开源的大数据生态系统平台剖析

Hadoop大数据平台核心技术剖析

Hadoop的发展历程以及产业界的实际应用介绍
Hadoop大数据平台架构
基于Hadoop平台的PB级大数据存储管理与分析处理的工作原理与机制
Hadoop的核心组件剖析

Hadoop的大数据体系架构

Hadoop的起源

什么是大数据?
专有云上的混搭平台设计
OLTP系统和OLAP系统
数据仓库的基本概念
Google的基本思想

Hadoop的体系结构和原理

海量数据的存储HDFS

·  文件上传的过程

·  文件下载的过程

·  原信息的合并过程


海量数据的计算MapReduce

·  YARN的工作原理

·  MapReduce作业执行的过程和原理


HBase的基本架构

Hadoop集群模式的安装和配置

单机模式的安装和配置
伪分布模式的安装和配置
免密码登录的原理
配置Hadoop的集群环境
配置和使用HUE

Hadoop HA

集群的规划
安装Zookeeper集群环境
安装配置hadoop集群
验证HDFS的HA
验证YARN

Hadoop应用案例分析

案例一:互联网应用架构
案例二:日志分析
案例三:Hadoop在淘宝的应用

分布式文件系统HDFS

访问HDFS

使用命令行访问HDFS文件系统
使用Java编程接口访问HDFS文件系统

HDFS的高级特性

什么是HDFS的联盟
HDFS的回收站
HDFS的配额
HDFS的权限

HDFS的底层原理

什么是RPC通信?
什么是动态代理?

HDFS的优化

NameNode的优化策略
SecondaryNameNode的优化策略
文件存储的优化
HDFS的瓶颈和解决方案

HDFS的NameNode联盟

什么是NameNode的联盟
NameNode的体系架构
搭建NameNode的联盟架构

分布式计算模型MapReduce和Yan

MapReduce基础编程

MapReduce的基本概念和原理
数据在MapReduce的流动过程
第一个MapReduce程序和运行MapReduce程序

MapReduce高级编程

序列化的基本概念
编写MapReduce序列化的程序
MapReduce的排序
MapReduce的分区
什么是Combiner
什么是Shuffle

Yarn的优化

Yarn的内存使用
Yarn的资源调度策略
MapReduce任务的优化

数据分析引擎

数据分析之Hive

·  什么是Hive和Hive的体系结构

·  安装和配置Hive

·  使用HQL

·  Hive的客户端:CLI客户端和Java编程

·  接口


Hive的自定义函数
Hive的数据模型

·  内部表

·  分区表

·  桶表

·  视图

·  物化视图

数据分析之Pig

什么是Pig和Pig的体系结构
安装和配置Pig
Pig的数据模型
使用Pig Latin语句进行数据的分析
Pig的自定义函数

数据交换引擎

Sqoop和Flume

使用Sqoop进行数据的交换

·  什么是Sqoop体系结构

·  使用Sqoop进行数据的交换


使用Flume进行数据的采集

·  什么是Flume体系结构

·  使用Flume进行数据的采集

基于HDFS的存储系统

HBase数据库

HBase简介及其在Hadoop中的位置
HBASE的伪分布的搭建
HBASE的底层存储模型和基本概念
HBASE的读写原理
HBASE的高级特性
HBase的体系结构
HBASE Shell
HBASE的批量导入
HBASE的Java客户端

分布式协调服务

Zookeeper

什么是Zookeeper?及其功能
Zookeeper的体系结构和数据模型
Zookeeper安装及测试
Zookeeper的Java接口
Watcher及内部事件
Zookeeper的工作原理
基于ZooKeeper的大数据的HA架构及其实现

基于Spark的大数据分析平台

Scala编程语言

Scala语言基础
Scala语言的面向对象
Scala语言的函数式编程
Scala中的集合
Scala语言的高级特性

Spark Core核心

什么是Spark?Spark生态圈
Spark的体系结构与安装部署
执行Spark Demo程序
Spark运行机制及原理分析
Spark的算子
Spark RDD的高级算子
Spark基础编程案例

Spark SQL数据分析引擎

Spark SQL基础
使用数据源
性能优化
IDEA中开发Spark SQL程序

Spark Streaming流式计算框架

Structured Streaming基础
Structured Streaming的程序模型
Datasets 和 DataFrames API
管理和监控流式查询

基于Hadoop和Spark大数据平台的机器学习

Mahout和Spark MLlib

在机器学习中的使用,常用算法实战(Mahout和spark MLlib)

·  Mahout与Spark MLLib

·  基于协同过滤算法

·  基于ALS协同过滤算法

·  基于Spark MLLib的逻辑回归算法

下一代大数据处理引擎

Flink

Flink介绍
Flink的数据集
Flink两种执行模型
Flink-流计算模型-有界数据集处理
Flink的DataSet API
Flink的DataStream API
广播变量、累加器和计数器
状态管理和恢复
Window和Time
Flink Table & SQL

 

 




如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

微信号.jpg

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>