课程培训
Hadoop/Spark/Flink大数据平台实战培训课程(分布式计

Hadoop/Spark/Flink大数据平台实战培训课程(分布式计算与批流一体)

  •  

  • 【培训对象】
    大数据平台工程师、数据开发工程师、解决方案架构师,希望系统掌握以Hadoop/Spark/Flink为核心的大数据技术栈。

  •  

  • 【培训目标】
    一、 深入理解Hadoop生态系统(HDFS、YARN)的核心组件,能够搭建和维护稳定的大数据基础平台。
    二、 掌握Spark Core、Spark SQL、Spark Streaming的核心编程模型和性能调优技巧。
    三、 熟悉Flink作为新一代流处理引擎的优势,掌握其DataStream API和SQL进行流式处理。
    四、 理解批流一体的概念,能够根据业务需求,融合使用Hadoop/Spark/Flink构建统一的数据处理平台。

  •  

  • 【培训内容介绍】
    一、 大数据平台概述与技术演进:Hadoop生态圈回顾,Spark与Flink的崛起,批流一体趋势。
    二、 HDFS分布式文件系统:HDFS架构(NameNode, DataNode)、数据读写流程、副本机制、高可用(HA)与联邦(Federation)配置。
    三、 YARN资源调度器:YARN架构(ResourceManager, NodeManager)、调度器(FIFO, Capacity, Fair)原理与配置,应用提交与资源隔离。
    四、 Hadoop集群管理与运维:集群规划、搭建、监控、安全(Kerberos)、故障排查。
    五、 Spark Core基础:Spark应用提交流程、RDD概念与算子、依赖关系与DAG生成、Shuffle过程。
    六、 Spark SQL:DataFrame/Dataset API、Catalyst优化器、与Hive集成、性能调优。
    七、 Spark Streaming:DStream模型、微批处理原理、与Kafka集成、状态管理与Exactly-Once保证。
    八、 Flink核心概念回顾与进阶:状态、时间、容错机制,DataStream API深度实践。
    九、 Flink SQL与流批一体:使用Flink SQL统一处理有界(批)和无界(流)数据,实现流批一体架构。
    十、 Spark与Flink对比与选型:引擎适用场景对比、如何根据业务需求选择计算引擎。
    十一、 平台整合实践:数据统一存储在HDFS/对象存储,通过YARN调度Spark/Flink任务,使用Hive Metastore作为元数据管理中心。
    十二、 实战演练:搭建一套包含Hadoop、Spark、Flink的大数据平台,分别用Spark和Flink实现一个批处理任务和一个流处理任务。





如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>