课程培训
大数据培训课程体系(选修2)

大数据培训课程体系(选修)

课程目录

  1. 大数据基础入门与生态认知
  2. Linux基础与大数据环境部署
  3. Hadoop生态核心技术实战
  4. 大数据离线计算(Spark方向)
  5. 大数据实时计算(Kafka+Flink方向)
  6. 大数据采集与数据同步实战
  7. 数据仓库建模与ETL开发
  8. 大数据调度与运维管理
  9. 大数据查询与可视化应用
  10. 大数据常用工具综合实战

 

专题1:大数据基础入门与生态认知

培训对象

  • 大数据零基础入门者、转行从业者
  • IT相关岗位想拓展大数据技能的人员

培训目标

  1. 理解大数据的核心定义、特点与应用场景,建立大数据思维。
  2. 掌握大数据技术架构全景,明确各组件的核心作用与协同关系。
  3. 了解大数据岗位分工与技能要求,规划自身学习与发展方向。

培训内容

  1. 大数据核心概念、特征与行业应用案例
  2. 大数据技术架构分层(采集、存储、计算、应用)
  3. Hadoop生态体系核心组件介绍
  4. 大数据与传统数据处理的区别
  5. 分布式系统核心原理与基础认知
  6. 大数据常见岗位(开发、运维、分析)分工
  7. 大数据技术发展趋势与行业落地场景
  8. 数据库基础(MySQL)与SQL入门
  9. 大数据学习方法与技能提升路径
  10. 大数据项目开发全流程概述
  11. 常见大数据技术误区与规避
  12. 大数据生态全景图解读与实操入门

 

专题2:Linux基础与大数据环境部署

培训对象

  • 大数据入门者、需要掌握环境部署的IT人员
  • 大数据开发、运维岗位基础薄弱的从业者

培训目标

  1. 熟练掌握Linux系统核心操作命令,满足大数据环境部署需求。
  2. 掌握虚拟机搭建与网络配置,能够独立部署单机/集群环境。
  3. 具备大数据环境故障排查基础能力,保障环境稳定运行。

培训内容

  1. Linux系统简介与安装(CentOS)
  2. Linux基础命令(文件、目录、权限管理)
  3. Linux用户、组管理与权限配置
  4. Linux网络配置(IP、主机名、防火墙)
  5. 虚拟机(VMware)搭建与克隆
  6. SSH远程连接与免密登录配置
  7. Linux软件安装与卸载(rpm、yum)
  8. JDK安装与环境变量配置
  9. 大数据单机环境部署核心步骤
  10. 大数据集群环境基础配置(免密、时间同步)
  11. 环境部署常见错误与排查方法
  12. Linux常用工具(vim、rz/sz)使用技巧

 

专题3:Hadoop生态核心技术实战

培训对象

  • 大数据开发、数据仓库岗位从业者
  • 掌握Linux基础,想深入学习Hadoop生态的人员

培训目标

  1. 理解Hadoop核心组件(HDFS、YARN、MapReduce)原理与架构。
  2. 熟练部署Hadoop集群,掌握核心组件的启动与管理。
  3. 能够运用Hadoop组件完成基础的数据存储与离线计算任务。

培训内容

  1. Hadoop核心架构与组件协同关系
  2. HDFS分布式存储原理(NameNode、DataNode)
  3.  
  4. YARN资源调度原理与核心组件
  5. YARN集群配置与资源分配优化
  6. MapReduce计算模型与执行流程
  7. MapReduce核心编程与案例实战
  8. Hadoop集群部署、启动与停止
  9. Hadoop集群监控与日志分析
  10. Hadoop常见故障(集群启动失败、数据丢失)排查
  11. Zookeeper分布式协调服务原理与应用
  12. Hadoop实战案例:日志数据存储与简单分析

 

专题4:大数据离线计算(Spark方向)

培训对象

  • 大数据开发、数据分析师、数据仓库工程师
  • 掌握Hadoop基础,想提升离线计算能力的人员

培训目标

  1. 理解Spark核心原理、架构与运行机制,掌握Spark与MapReduce的区别。
  2. 熟练使用Spark Core、Spark SQL进行离线数据处理与分析。
  3. 具备Spark程序性能调优基础能力,完成复杂离线计算任务。

培训内容

  1. Spark核心原理与架构(Driver、Executor)
  2. Spark与Hadoop MapReduce的对比优势
  3. Spark运行环境搭建(Local、Standalone、YARN)
  4. Spark Core核心概念(RDD、分区、依赖)
  5. Spark Core算子(转换、行动算子)实战
  6. Spark SQL基础与DataFrame、DataSet操作
  7. Spark SQL查询优化与性能调优
  8. Spark批处理任务开发与提交
  9. Spark集群管理与任务监控
  10. Spark常见性能问题(数据倾斜)排查与解决
  11. Spark离线分析实战案例(用户行为分析)
  12. Presto/Impala交互式查询基础应用


专题5:大数据实时计算(Kafka+Flink方向)

培训对象

  • 大数据开发、实时计算工程师、数据开发工程师
  • 掌握Hadoop、Spark基础,想拓展实时计算技能的人员

培训目标

  1. 理解Kafka消息队列、Flink实时计算核心原理与架构。
  2. 熟练部署Kafka、Flink集群,掌握核心操作与开发方法。
  3. 能够开发实时计算任务,实现实时数据采集、处理与输出。

培训内容

  1. Kafka核心原理与架构(Producer、Consumer、Broker)
  2. Kafka集群部署、主题配置与权限管理
  3. Kafka生产者/消费者开发与参数优化
  4. Kafka消息可靠性保障与故障排查
  5. Flink核心原理与架构(JobManager、TaskManager)
  6. Flink运行环境搭建与集群配置
  7. Flink核心概念(Stream、Window、State)
  8. Flink DataStream API开发实战
  9. Flink状态管理与容错机制
  10. Flink与Kafka集成实战(实时数据采集)
  11. Flink实时计算任务调优与监控
  12. 实时计算实战案例(实时流量统计)

 

专题6:大数据采集与数据同步实战

培训对象

  • 大数据开发、数据采集工程师、ETL工程师
  • 需要掌握数据接入技能的大数据相关从业者

培训目标

  1. 理解大数据采集与同步的核心场景与需求,掌握主流工具原理。
  2. 熟练使用Flume、Sqoop、DataX等工具完成数据采集与同步。
  3. 能够应对不同数据源(日志、数据库)的采集需求,保障数据一致性。

培训内容

  1. 大数据采集场景与核心需求(离线、实时采集)
  2. Flume核心原理与架构(Source、Channel、Sink)
  3. Flume配置与实战(日志数据采集到HDFS/Kafka)
  4. Flume集群部署与性能优化
  5. Sqoop原理与数据库(MySQL)数据导入/导出
  6. Sqoop参数配置与增量数据同步实战
  7. DataX核心原理与多数据源同步配置
  8. DataX实战(关系型数据库与HDFS数据同步)
  9. Canal原理与MySQL binlog日志采集实战
  10. FileBeat轻量级日志采集工具使用
  11. 数据采集过程中的数据清洗与去重基础
  12. 采集工具常见故障排查与数据一致性保障

 

专题7:数据仓库建模与ETL开发

培训对象

  • 数据仓库工程师、ETL工程师、大数据开发工程师
  • 想从事数据建模与数据处理工作的IT人员

培训目标

  1. 理解数据仓库核心概念、建模原则与分层架构,掌握主流建模方法。
  2. 熟练完成数据仓库分层建模,开发高效的ETL数据处理流程。
  3. 具备数据仓库优化与问题排查能力,保障数据仓库稳定运行。

培训内容

  1. 数据仓库核心概念(事实表、维度表、粒度)
  2. 数据仓库分层架构(ODS、DWD、DWS、ADS)
  3. 主流数据建模方法(星型模型、雪花模型)
  4. 数据仓库建模流程与规范
  5. ETL核心概念与开发流程(抽取、转换、加载)
  6. Hive SQL进阶与ETL脚本开发
  7. 数据清洗、转换、关联的常用方法
  8. 增量ETL与全量ETL开发实战
  9. 数据仓库元数据管理基础(Atlas)
  10. ETL任务监控与故障排查
  11. 数据仓库性能优化(分区、索引)
  12. 数据仓库实战案例(业务数据建模与ETL开发)

 

专题8:大数据调度与运维管理

培训对象

  • 大数据运维工程师、大数据开发工程师(兼顾运维)
  • 负责大数据集群管理与任务调度的人员

培训目标

  1. 理解大数据调度工具核心原理与运维核心需求,掌握集群管理方法。
  2. 熟练部署与使用调度工具,完成ETL、计算任务的调度与监控。
  3. 具备大数据集群高可用配置、故障排查与性能优化能力。

培训内容

  1. 大数据任务调度核心场景与需求
  2. Azkaban原理与任务调度实战
  3. Airflow核心概念与DAG任务编排
  4. Airflow任务配置、调度与监控
  5. DolphinScheduler分布式调度工具使用
  6. 大数据集群运维核心职责与流程
  7. Hadoop、Spark、Flink集群日常维护
  8. 大数据集群高可用配置(HA)
  9. Docker容器化部署大数据组件
  10. K8s大数据集群编排与管理基础
  11. Prometheus大数据集群监控实战
  12. 大数据集群常见故障排查与应急处理

 

专题9:大数据查询与可视化应用

培训对象

  • 数据分析师、大数据开发工程师、BI工程师
  • 需要将大数据转化为可视化报表的相关人员

培训目标

  1. 掌握大数据查询引擎核心原理,能够高效查询与分析大数据。
  2. 熟练使用可视化工具,制作规范、直观的大数据可视化报表。
  3. 能够通过可视化分析数据,挖掘数据价值,支撑业务决策。

培训内容

  1. ClickHouse实时分析引擎原理与部署
  2. ClickHouse核心语法与查询优化
  3. Elasticsearch原理与大数据检索应用
  4. 大数据查询引擎对比(ClickHouse、Presto)
  5. 数据可视化核心原则与报表设计规范
  6. Tableau核心操作与可视化图表制作
  7. Power BI数据连接与报表开发实战
  8. Superset开源可视化工具部署与使用
  9. 大数据指标体系搭建与可视化呈现
  10. 可视化报表交互设计与权限管理
  11. 可视化工具与大数据平台集成
  12. 可视化分析实战案例(业务数据可视化报表开发)

 

专题10:大数据常用工具综合实战

培训对象

  • 大数据相关岗位从业者(开发、运维、分析)
  • 掌握大数据基础工具,想提升综合实战能力的人员

培训目标

  1. 整合大数据全流程工具,掌握各组件协同使用方法。
  2. 能够独立完成大数据项目从采集、存储、计算到可视化的全流程开发。
  3. 提升大数据项目实战与问题解决能力,适配企业实际工作需求。

培训内容

  1. 大数据综合项目架构设计与需求拆解
  2. 项目环境搭建(Hadoop+Spark+Kafka+Flink)
  3. 数据采集(Flume/Canal)与同步(Sqoop/DataX)实战
  4. 数据仓库分层建模与ETL开发
  5. 离线计算(Spark SQL)任务开发与调度
  6. 实时计算(Flink+Kafka)任务开发
  7. ClickHouse实时查询与数据聚合
  8. 数据可视化报表(Tableau)开发
  9. 项目监控与日志分析系统搭建
  10. 项目性能调优与故障排查实战
  11. 大数据项目部署与上线流程
  12. 综合实战项目复盘与经验沉淀

 




如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>