数据湖:Delta Lake/Hudi架构与应用培训课程
-
-
培训对象: 大数据工程师、数据架构师、数据平台开发者、数据湖技术选型者。
-
-
-
-
培训目标:
-
-
培训内容介绍:
-
一、 数据湖与湖仓一体概念: 介绍数据湖演进历程,对比数据仓库与数据湖,理解湖仓一体的技术价值。
二、 Delta Lake核心架构: 深入Delta Lake的事务日志、元数据管理和文件布局,理解ACID事务实现原理。
三、 Delta Lake基础操作: 使用Spark读写Delta表,执行插入、更新、删除和合并(Merge/Upsert)操作。
四、 Delta Lake时间旅行: 使用版本控制和时间旅行查询历史数据快照,实现数据回溯和审计。
五、 Delta Lake模式演进: 动态添加、修改和删除列,处理模式变更对现有数据的影响。
六、 Delta Lake性能优化: 使用Z-Order排序、文件压缩(Optimize)和数据跳过(Data Skipping)提升查询性能。
七、 Apache Hudi架构解析: 了解Hudi的Copy-On-Write和Merge-On-Read存储类型,理解索引机制(Bloom Index、HBase Index)。
八、 Hudi基础操作: 使用Spark写入Hudi表,执行Upsert和增量查询,管理小文件合并。
九、 Hudi增量查询与流式处理: 使用Hudi的增量视图实现变更数据捕获(CDC),构建流式数据管道。
十、 数据湖集成技术栈: 将Delta Lake/Hudi与Hive、Presto/Trino、Flink集成,构建统一查询分析层。
十一、 实时数据湖构建: 使用Flink + Hudi/Delta Lake构建实时数据湖,实现秒级数据可见性。
十二、 实战项目:数据湖平台搭建: 基于Delta Lake或Hudi构建企业级数据湖,实现批量/实时数据接入、历史数据查询和增量处理。
如果您想学习本课程,请
预约报名
如果没找到合适的课程或有特殊培训需求,请
订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请
服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。
专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获