课程培训
大数据(Hadoop、Spark、NOSQL)案例分析与实践

 

目标收益

本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程,涉及Spark、Hadoo系统基础知识,概念及架构, Spark、Hadoo实战技巧,Spark、Hadoo经典案例等。
通过本课程实践,帮助学员对Spark、Hadoo生态系统有一个清晰明了的认识;理解Spark、Hadoo系统适用的场景;掌握Spark、Hadoo等初中级应用开发技能;搭建稳定可靠的Spar、Hadoo k集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴,华为等。

培训对象

各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。

学员基础

了解Linux系统及相关语言环境

课程大纲

 

主题 内容

Hadoop简介和生态系统介绍

传统大规模数据分析存在的问题 
Hadoop概述 
Hadoop与分布式文件系统 
Hadoop生态系统
Hadoop的行业应用案例分析
Hadoop在云计算和大数据的位置和关系
Hadoop版本介绍
Hadoop与Google FS的关系
Hadoop在国内的使用情况和未来

Hadoop安装和主要配置文件介绍

Hadoop安装所需软件介绍
Hadoop单机安装
Hadoop伪分布式安装
Hadoop完全分布式安装
Hadoop三个节点安装的配置介绍
Hahoop多节点ssh配置
Hadoop格式化详解
Hadoop核心配置文件介绍
核心配置文件core-site.xml
HDFS配置文件hdfs-site.xml
Mapreduce配置文件mapred-site.xml
master文件配置详解
slave文件配置详解
Hadoop启动和停止方法一
—start-all.sh详解
—stop-all.sh详解
Hadoop的启动和停止方法二
—hadoop-deamon.sh详解
Hadoop安装的常见错误介绍和解决方案
使用自带的wordcount和pi测试集群安装是否成功
使用Streaming来测试集群安装是否成功

Hadoop组件介绍

Hadoop NameNode 介绍
Hadoop SecondaryNameNode 介绍 
Hadoop DataNode 介绍
Hadoop JobTracker 介绍 
Hadoop TaskTracker 介绍

Hadoop的HDFS模块

HDFS架构介绍
HDFS原理介绍
NameNode功能详解
DataNode功能详解
SecondaryNameNode功能详解
HSFD的fsimage和editslog详解
HDFS的block详解
HDFS的block的备份策略
Hadoop的机架感知配置
HDFS的shell命令介绍
HDFS的thrift server服务介绍
HDFS的API接口介绍
HDFS的权限详解
Hadoop的客服端接入案例

MapReducer入门

Mapreduce原理
MapReduce流程
剖析一个MapReduce程序
Mapper和Reducer抽象类详解
Mapreduce的最小驱动类
MapReduce自带的类型
自定义Writables和WritableComparables
Mapreduce的输入InputFormats
MapReduce的输出OutputFormats
Combiner详解
Partitioner详解
DistributeFileSystem详解
Hadoop Tools工具介绍
Counter计数器详解
自定义Counter计数器
基于Hadoop二次开发实战
MapReduce的优化
Map和Reduce的个数设置
Hadoop小文件优化
任务调度
默认的任务调度
公平任务调度
能力任务调度
使用 Hadoop MapReduce Streaming 编程 
MapReduce的单元测试

Hive

Hive和Pig基础
Hive、Impala和presto的比较 
Hive的作用和原理说明
Hadoop仓库和传统数据仓库的协作关系
Hadoop/Hive仓库数据数据流
Hive部署和安装
HiveCli的基本用法
Hive的server启动
HQL基本语法
Hive的加载数据本地加载和HDFS加载
Hive的partition详解
Hive的存储方式详解
RCFILE、TEXTFILE和SEQUEUEFILE
Hive的UDF和UDAF
Hive的transform详解
Hive的JDBC连接

Sqoop介绍

Sqoop是什么
Sqoop安装
Sqoop把mysql数据导入HDFS
Sqoop把HDFS数据导入Mysql
Sqoop吧Mysql数据导入Hive
Sqoop吧Mysql数据导入Hive分区

Hadoop集群配置和维护

Hadoop集群的部署要点
NameNode和SecondaryNameNode和JobTracker机器的配置要求
dataNode与tasktracker机器的配置要求
Hadoop集群管理的工具介绍
Ganglia和nigos监控Hadoop集群介绍
Ambri介绍
添加和删除节点演示
Namenode的单点解决方案
NameNode的NFS备份介绍
集群所有dataNode挂掉的故障介绍
集群NameNode的fsimage丢掉恢复方法
Hadoop集群维护的注意点

Hbase使用

Hbase原理
Hmaster详解
RegionServer详解
Zookeeper介绍
Hbase安装
Hbase逻辑视图介绍
Hbase物理视图介绍
Hbase的二级索引介绍
Hbase的DDL和DML
Hbase表的设计案例
Hbase的import功能介绍
MapReduce操作Hbase
Hbase的thriftServer介绍
Hbase的API介绍
Hbase使用场景介绍
Hbase案例分析

大数据在国内的运用

大数据在国内的使用介绍
离线计算框架介绍
流式计算框架介绍
内存计算框架介绍
内存流式计算介绍
大数据实时请求框架介绍
大数据在移动的案例介绍
大数据在银行的案例介绍
大数据在阿里的案例介绍

Spark生态介绍

Spark产生背景
Spark(内存计算框架)
SparkSteaming(流式计算框架)
SparkSQL(ad-hoc)
Mllib(MachineLearning)
GraphX(bagel将被代)

spark安装部署

Spark安装简介
Spark的源码编译
SparkStandalone安装
SparkStandaloneHA安装
Spark应用程序部署工具spark-submit

Spark运行架构和解析

Spark的运行架构
基本术语
运行架构
SparkonStandalone运行过程
SparkonYARN运行过程
Spark运行实例解析
SparkonStandalone实例解析
SparkonYARN实例解析

SparkSQL原理和实践

SparkSQL原理
SparkSQL的Catalyst优化器
SparkSQL内核
SparkSQL和Hive
SparkSQL的实例和编程
SparkSQL的实例操作demo
SparkSQL的编程




如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
培训特点:
针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示
培训讲师:
中国科学院软件研究所,计算研究所高级研究人员
IBM,oracle,微软,vmware等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享。
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

电话咨询:010-62883247

                010-62884854

电子邮件:soft@info-soft.cn  

 

点击这里给我发消息

点击这里给我发消息

点击这里给我发消息

qrcode_for_gh_98c3580f6c5a_430.jpg

订制培训 更多>>