课程培训
基于分布式架构大数据hadoop生态组件及数据分析可视化

基于分布式架构大数据hadoop生态组件及数据分析可视化培训课程

培训目录:

具体说明

章节内容:分布式大数据框架 Hadoop

课程内容:  1、Hadoop 介绍    2、分布式文件系统 HDFS

授课内容:

1、分布式大数据框架Hadoop(理论·上)

本节主要讲解大数据概述及Hadoop HDFS

2、分布式大数据框架Hadoop(实操·上)

本实操演练练习Hadoop部署及插件安装

01 实操:Hadoop 安装

   绍搭建Hadoop集群的具体步骤。

02 实操:Hadoop开发插件安装

   介绍如何给Eclipse配置Hadoop插件、方便使用Eclipse开发工具进行大数据开发。

   视情况及反馈, 会选用 IntelliJ IDEA

章节内容:分布式大数据框架 Hadoop

课程内容: 1 、分布式处理框架 MapReduce

       2、资源调度框架 Yarn

授课内容:

1、分布式大数据框架Hadoop(理论·下)

主要讲解Hadoop MR、Yarn

2、式大数据框架Hadoop(实操·下)

操演练练习Hadoop Shell操作及MR入门案例

03 实操:Hadoop Shell基本操作

本任务介绍常用的Hadoop Shell命令。

04 实操:Mapreduce实例——WordCount

   本任务练习使用电商数据进行词频统计。

章节内容:数据仓库 Hive + 数据迁移工具 Sqoop

课程内容:

1、数据仓库 Hive 介绍    2、Hive 安装部署

3、Hive Shell 基本操作   4、Sqoop 安装部署

5、Sqoop 数据迁移        6、Sqoop 增量数据迁移

授课内容

1、 数据仓库Hive+数据迁移工具Sqoop(理论)

本节主要讲解数据仓库Hive及迁移工具Sqoop

2、 数据仓库Hive+数据迁移工具Sqoop(实操)

本实操演练练习Hive基本操作及Sqoop应用

05 实操:Hive安装部署

本任务介绍如何安装部署数据仓库Hive。

06 实操:Hive基本操作

本任务详细介绍Hive的基本操作以及Hive的外部表与内部表的区别。

07 实操:Sqoop安装

本任务主要介绍Sqoop的工作原理,然后详细说明Sqoop的安装部署过程。

08 实操:综合案例—基本流程图

    本任务介绍Sqoop在Hive与Mysql之间进行数据传递以及Hive数据分析

章节内容:分布式日志采集工具 Flume

课程内容:

1、Flume 介绍    2、Flume Agent 详解   

授课内容:

1、 分布式日志采集工具Flume(理论)

本节主要讲解Flume工作原理、架构、Agent概念

2、 分布式日志采集工具Flume(实操)

本演练实操练习Flume安装部署及Agent配置详解

09 实操:Flume安装部署

本任务介绍Flume的工作原理和Flume安装流程。

10 实操:Flume配置:Source、Channel、Sink

本任务介绍配置多种source,channel,sink组合,实现多种需求。

11 实操:Flume多source,多sink组合框架搭建

本任务介绍Flume多source,多sink组合框架搭建。

章节内容:分布式消息系统 Kafka

课程内容:

1、Kafka 结构分析    2、Flume 与 Kafka 联用

授课内容:

1、 分布式消息体统Kafka(理论)

本节主要讲解Kafka工作原理、架构及名词概念

2、 分布式消息体统Kafka(实操)

本演练实操练习Kafka安装部署、与Flume连用

12 实操:Kafka安装及测试

本任务介绍安装scala与zookeeper,然后在已安装好的scala和zookeeper环境基础上,安装部署Kafka。

13 实操:Flume传输数据给Kafka

本任务介绍Flume传数据到Kafka的执行原理和具体操作。

章节内容:分布式大数据框架Spark

课程内容:

1、Spark 框架介绍      2、Spark RDD 介绍

3、Spark SQL 数据处理  4、Spark Shell 数据处理

授课内容:

1、 分布式大数据框架Spark(理论)

本节主要讲解Spark工作原理、架构及RDD概念

2、分布式大数据框架Spark(实操)

本演练实操练习Spark安装部署及Shell操作

14 实操:Spark Standalone伪分布模式安装

本任务介绍在已经安装好Hadoop下,如何安装Spark Standalone模式。

15 实操:Spark Shell操作

本任务介绍Spark Shell操作,在Spark Shell命令行下对算子进行实例讲解,包括去重、排序、Join、求平均值

章节内容:电商项目 (上)

课程内容:

1、爬虫框架介绍        2、电商数据清洗

3、电商离线数据分析    4、数据迁移

授课内容:

1、电子商务数据分析项目(爬虫、清洗)

本演练实操练习电商案例之数据采集、清洗

2、电子商务数据分析项目(离线数据分析)

本演练实操练习电商案例之离线分析、数据迁移

16 实操:一、采集电商网站交易及评论数据(局域网or互联网)

本次任务对爬虫进行了介绍,并分析网页的源码结构和如何爬取数据。

17 实操:二、开发MR程序清洗电商评论数据

本次任务对数据清洗进行概述,包括Json解析,搭建解析框架和编写MapReduce代码。

18 实操:三、利用HiveSQL离线分析评论数据

本次任务介绍使用HiveSQL根据多种需求对数据进行统计并演示。

19 实操:四、利用Sqoop进行数据迁移至Mysql数据库

   本次任务介绍了如何将Hive表中数据导入到MySQL以和如何将HDFS中数据导入到MySQL。

章节内容:电商项目 (下)

课程内容:

1、离线数据可视化   2、SparkStreaming 实时流数据处理

授课内容:

1、电子商务数据分析项目(数据可视化)

本演练实操练习电商案例之数据可视化

2、电子商务数据分析项目(实时数据分析)

本演练实操练习电商案例之实时数据分析

20 实操:五、利用JavaWeb+Echarts完成数据图表展示过程

本次任务介绍通过搭建JavaWeb框架,将数据进行可视化图表展示。

21 实操:六、利用Spark进行实时数据分析(上)(局域网or互联网)

本次任务以京东商品评论为目标网站,架构采用Java爬虫框架+Flume+Kafka+Spark Streaming+Mysql等多种技术,动态实时的采集、分析、展示数据。

22 实操:七、利用Spark进行实时数据分析(下)(局域网or互联网)

本次任务以京东商品评论为目标网站,架构采用Java爬虫框架+Flume+Kafka+Spark Streaming+Mysql等多种技术,动态实时的采集、分析、展示数据。

 




如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

微信号.jpg

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>