Spark Core/SQL/Streaming实时计算实战培训课程
-
-
培训对象: 大数据开发工程师、实时计算工程师、数据平台开发者、Spark技术应用者。
-
-
培训目标:
-
-
培训内容介绍:
-
一、 Spark生态系统与架构: 了解Spark的发展历程,掌握Driver、Executor、Master、Worker的角色和任务提交流程。
二、 RDD基础与创建: 理解RDD的不可变性和容错机制,通过集合和外部文件创建RDD。
三、 RDD算子深度应用: 掌握Transformation算子(map、filter、flatMap、reduceByKey)和Action算子(collect、count、save)。
四、 RDD依赖关系与DAG: 理解窄依赖和宽依赖,查看DAG图分析作业执行阶段。
五、 Spark SQL与DataFrame: 使用DataFrame API进行数据查询,对比RDD与DataFrame的性能差异。
六、 Spark SQL高级查询: 注册临时视图,使用Spark SQL语法进行复杂查询,处理JSON和Parquet格式。
七、 Spark Streaming基础: 理解DStream的离散流模型,创建Socket和Kafka数据源进行流处理。
八、 状态管理与窗口操作: 使用updateStateByKey维护状态,实现滑动窗口和滚动窗口计算。
九、 Structured Streaming: 使用DataFrame API进行流处理,理解输出模式(Append、Update、Complete)。
十、 流式ETL实战: 从Kafka消费数据,进行清洗转换后写入HDFS或数据库,实现实时数据管道。
十一、 Spark性能调优: 调整并行度、序列化方式、内存配置,解决数据倾斜和Shuffle优化。
十二、 实战项目:实时指标计算: 开发实时计算应用,从Kafka消费用户行为数据,实时计算PV、UV等指标。
如果您想学习本课程,请
预约报名
如果没找到合适的课程或有特殊培训需求,请
订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请
服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。
专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获