课程培训
数据湖(Delta Lake/Iceberg)构建与治理培训课程

数据湖(Delta Lake/Iceberg)构建与治理培训课程

  •  

  • 【培训对象】
    数据平台架构师、数据湖工程师、大数据开发人员,希望解决传统数据仓库局限性,构建统一的数据湖平台。

  •  

  • 【培训目标】
    一、 理解数据湖的核心概念及其与数据仓库的差异,熟悉Delta Lake、Iceberg、Hudi等主流数据湖表格式。
    二、 掌握数据湖的ACID事务、Schema演化、Time Travel等核心特性的原理与应用。
    三、 能够基于数据湖技术构建支持流批一体、支持多种计算引擎的统一数据存储和管理平台。
    四、 学会对数据湖中的数据进行有效治理,包括元数据管理、数据质量、权限控制等。

  •  

  • 【培训内容介绍】
    一、 数据湖概念与演进:从数据仓库到数据湖再到湖仓一体,数据湖的核心价值(存储多结构数据、支持多种计算引擎、TCO)。
    二、 数据湖表格式概述:Delta Lake、Apache Iceberg、Apache Hudi三大主流格式的对比与发展趋势。
    三、 Delta Lake深度解析:事务日志、ACID事务、Schema强制与演化、Time Travel、Z-Order优化。
    四、 Delta Lake实战:在Spark中集成Delta Lake,进行读写操作,利用其特性解决数据一致性问题。
    五、 Apache Iceberg深度解析:Iceberg的表格式规范、隐藏分区、分区演化、快照隔离、乐观并发控制。
    六、 Apache Iceberg实战:在Spark/Flink中集成Iceberg,实现高效的流批读写和精确的增量读取。
    七、 数据湖计算引擎集成:如何让Spark、Flink、Trino/Presto、Hive无缝读写数据湖表。
    八、 流批一体在数据湖上的实践:利用Flink将实时数据流写入Iceberg/Delta表,实现分钟级数据可见性。
    九、 数据湖构建实战:在对象存储(如MinIO/S3/HDFS)上搭建数据湖平台,配置元数据服务。
    十、 数据湖治理:元数据管理(跟踪表的Schema和历史)、数据质量监控(在写入时检查数据质量)、数据安全与权限控制(对接Ranger)。
    十一、 数据湖上的数据科学:如何利用数据湖存储的特征数据和模型,支持机器学习训练。
    十二、 实战演练:基于开源组件搭建一个小型数据湖平台,演示从数据摄入、流批处理、到数据查询和治理的全流程。




如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>