课程培训
大数据平台:Hadoop生态圈(HDFS/YARN/MapReduce)培训

大数据平台:Hadoop生态圈(HDFS/YARN/MapReduce)培训课程

  •  

  • 培训对象: 大数据平台工程师、数据仓库工程师、运维工程师、大数据初学者。

  •  

  • 培训目标:

    • 理解Hadoop生态圈的架构和组件关系。

    • 掌握HDFS的存储原理和文件操作。

    • 熟悉YARN的资源调度机制和任务提交。

    • 能够编写和运行MapReduce程序进行分布式计算。

  •  

  • 培训内容介绍:

  •  

    一、 Hadoop生态圈概述: 了解Hadoop发展历史,介绍HDFS、YARN、MapReduce、Hive、HBase等组件的定位和关系。

    二、 HDFS架构深入: 理解NameNode、DataNode、Secondary NameNode的角色,掌握块存储和副本机制。

    三、 HDFS命令行操作: 使用hdfs dfs命令进行文件上传、下载、移动、删除等日常操作。

    四、 HDFS Java API编程: 编写Java程序读写HDFS文件,实现自定义文件操作和处理。

    五、 YARN资源调度架构: 理解ResourceManager、NodeManager、ApplicationMaster的角色,了解容器(Container)概念。

    六、 YARN调度策略: 对比FIFO、容量调度器(Capacity Scheduler)和公平调度器(Fair Scheduler)的适用场景。

    七、 MapReduce编程模型: 理解MapReduce的分而治之思想,掌握Map阶段和Reduce阶段的数据处理流程。

    八、 MapReduce基础实现: 编写WordCount程序,理解InputFormat、Mapper、Reducer、OutputFormat的作用。

    九、 MapReduce高级特性: 实现自定义分区、组合器(Combiner)、排序和分组,优化Shuffle阶段。

    十、 MapReduce性能调优: 调整Map和Reduce任务数量,配置压缩和内存参数,减少数据倾斜。

    十一、 Hadoop集群部署: 规划集群规模,配置Hadoop配置文件,启动和测试集群功能。

    十二、 实战项目:离线数据处理: 编写MapReduce程序处理大规模日志数据,完成ETL转换和指标计算。





如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>