课程培训
数据湖:Delta Lake/Hudi架构与应用培训课程

数据湖:Delta Lake/Hudi架构与应用培训课程

  •  

  • 培训对象: 大数据工程师、数据架构师、数据平台开发者、数据湖技术选型者。

  •  

  •  

  •  

  • 培训目标:

    • 理解数据湖核心概念和湖仓一体架构。

    • 掌握Delta Lake的事务、时间旅行和模式演进特性。

    • 熟悉Apache Hudi的复制表、增量查询和Upsert能力。

    • 能够基于数据湖构建实时数据湖仓一体平台。

  •  

  • 培训内容介绍:

  •  

    一、 数据湖与湖仓一体概念: 介绍数据湖演进历程,对比数据仓库与数据湖,理解湖仓一体的技术价值。

    二、 Delta Lake核心架构: 深入Delta Lake的事务日志、元数据管理和文件布局,理解ACID事务实现原理。

    三、 Delta Lake基础操作: 使用Spark读写Delta表,执行插入、更新、删除和合并(Merge/Upsert)操作。

    四、 Delta Lake时间旅行: 使用版本控制和时间旅行查询历史数据快照,实现数据回溯和审计。

    五、 Delta Lake模式演进: 动态添加、修改和删除列,处理模式变更对现有数据的影响。

    六、 Delta Lake性能优化: 使用Z-Order排序、文件压缩(Optimize)和数据跳过(Data Skipping)提升查询性能。

    七、 Apache Hudi架构解析: 了解Hudi的Copy-On-Write和Merge-On-Read存储类型,理解索引机制(Bloom Index、HBase Index)。

    八、 Hudi基础操作: 使用Spark写入Hudi表,执行Upsert和增量查询,管理小文件合并。

    九、 Hudi增量查询与流式处理: 使用Hudi的增量视图实现变更数据捕获(CDC),构建流式数据管道。

    十、 数据湖集成技术栈: 将Delta Lake/Hudi与Hive、Presto/Trino、Flink集成,构建统一查询分析层。

    十一、 实时数据湖构建: 使用Flink + Hudi/Delta Lake构建实时数据湖,实现秒级数据可见性。

    十二、 实战项目:数据湖平台搭建: 基于Delta Lake或Hudi构建企业级数据湖,实现批量/实时数据接入、历史数据查询和增量处理。





如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>