课程培训
Hadoop数据分析培训6

Hadoop数据分析培训课程大纲

 

培训对象

  • 具备Linux/Java基础的大数据开发入门者

  • 需要掌握离线数据处理能力的数据分析师/工程师

  • 企业数据平台运维人员

  • 希望系统构建Hadoop生态知识体系的技术人员

 

培训目标
使学员系统掌握Hadoop生态核心组件的原理与应用,熟练搭建Hadoop分布式集群环境;掌握HDFS分布式文件系统、MapReduce计算框架的核心操作与编程;能够使用Hive进行数据仓库建模与HQL数据分析,结合Flume+Kafka实现数据采集,Sqoop完成数据迁移
;最终具备独立完成企业级离线数据分析项目(如电商用户行为分析)的全流程能力,从平台部署、数据采集、数仓设计到可视化展示

 

培训内容介绍

  1. Hadoop生态系统概述与企业应用场景
    大数据技术发展背景与Hadoop生态体系全景图;核心组件详解:HDFS/YARN/MapReduce/Hive/HBase/ZooKeeper/Flume/Kafka/Sqoop
    ;企业级应用场景:电商用户行为分析、日志处理、离线数仓建设;Hadoop与传统数据库的对比与选型策略;主流发行版介绍(Apache/CDH/HDP)。

  2.  

  3. Linux基础与环境搭建
    大数据平台底层Linux环境配置;虚拟机安装与网络配置(VMware/Xshell/Xftp)
    ;Linux常用命令与文件权限管理;SSH免密码登录配置;集群规划与项目路径设计;JDK环境安装与配置

  4.  

  5. Hadoop完全分布式集群部署
    Hadoop架构深度解析:HDFS与YARN核心原理
    ;完全分布式集群搭建流程:配置文件修改、集群初始化、服务启动;HDFS高可用(HA)架构原理与配置;集群健康状态监控与常见问题排查;基准测试工具Hibench使用

  6.  

  7. HDFS分布式文件系统原理与操作
    HDFS架构:NameNode/DataNode/SecondaryNameNode;文件读写流程与副本机制
    ;HDFS Shell命令行操作实战;HDFS Java API开发:文件上传下载/目录操作/权限管理;HDFS的健壮性与Federation机制;Erasure Coding(纠删码)原理

  8.  

  9. MapReduce分布式计算框架
    MapReduce编程模型与工作原理
    ;核心组件:InputFormat/Mapper/Reducer/OutputFormat;Shuffle机制详解:分区/排序/合并/压缩;MapReduce Java API编程实战:词频统计、数据去重、TopN、倒排索引;MapReduce配置优化与性能调优

  10.  

  11. ZooKeeper分布式协调服务
    ZooKeeper核心原理:ZAB协议与Paxos算法;集群环境搭建与配置
    ;ZooKeeper Shell操作与Java API使用;在Hadoop HA中的应用场景;分布式锁与服务发现机制。

  12.  

  13. Hive数据仓库实战
    Hive架构原理:SQL转化为MapReduce执行流程
    ;Hive部署模式:内嵌模式/本地模式/远程模式;HQL基础操作:内部表/外部表/分区表/分桶表;Hive高级查询:多表关联/子查询/窗口函数;Hive UDF/UDAF开发实战;Hive数据字典设计与表结构管理;Hive SQL优化与配置优化

  14.  

  15. Flume日志采集系统
    Flume架构:Source/Channel/Sink组件详解
    ;Flume安装部署与配置文件编写;自定义拦截器开发:ETL拦截器、分流标记拦截器;多级Flume架构设计(Flume→Kafka→Flume);实战:用户行为日志数据采集。

  16.  

  17. Kafka消息队列
    Kafka架构原理:Topic/Partition/Producer/Consumer;Kafka集群环境搭建
    ;Kafka常用命令与Java API开发;Kafka在数据采集系统中的缓冲与消峰作用;Kafka与Flume的集成应用。

  18.  

  19. Sqoop数据迁移工具
    Sqoop原理与架构
    ;MySQL/Hadoop双向数据迁移命令;Sqoop导入导出参数详解;增量数据导入策略;Sqoop job自动化任务配置

  20.  

  21. 离线数据仓库分层设计
    数据仓库理论基础:Kimball维度建模;离线数仓分层架构:ODS原始数据层/DWD明细数据层/DWS服务数据层/DWT主题数据层/ADS应用数据层
    ;各层设计原则与实现方法;用户行为日志数据结构分析(启动日志/事件日志);JSON数据解析函数开发;拉链表设计与实现。

  22.  

  23. 综合实战:电商平台用户行为数据分析


  24. 以电商真实业务场景为背景,完成完整项目全流程

    • 平台部署:Hadoop完全分布式集群搭建

    • 数据采集:Flume采集用户行为日志→Kafka缓冲→Flume消费写入HDFS

    • 数仓建设:Hive分层数仓设计(ODS→DWD→DWS→DWT→ADS)

    • 指标计算:活跃用户/新增用户/留存率/沉默用户/回流用户等核心指标HQL分析

    • 数据迁移:Sqoop将ADS层结果导出到MySQL

    • 可视化展示:基于pyecharts构建数据大屏,呈现柱状图、折线图、水球图、轮播图等多维度分析结果




如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>