大数据培训课程体系(选修)
课程目录
-
大数据基础入门与生态认知
-
Linux基础与大数据环境部署
-
Hadoop生态核心技术实战
-
大数据离线计算(Spark方向)
-
大数据实时计算(Kafka+Flink方向)
-
大数据采集与数据同步实战
-
数据仓库建模与ETL开发
-
大数据调度与运维管理
-
大数据查询与可视化应用
-
大数据常用工具综合实战
专题1:大数据基础入门与生态认知
培训对象
-
大数据零基础入门者、转行从业者
-
IT相关岗位想拓展大数据技能的人员
培训目标
-
理解大数据的核心定义、特点与应用场景,建立大数据思维。
-
掌握大数据技术架构全景,明确各组件的核心作用与协同关系。
-
了解大数据岗位分工与技能要求,规划自身学习与发展方向。
培训内容
-
大数据核心概念、特征与行业应用案例
-
大数据技术架构分层(采集、存储、计算、应用)
-
Hadoop生态体系核心组件介绍
-
大数据与传统数据处理的区别
-
分布式系统核心原理与基础认知
-
大数据常见岗位(开发、运维、分析)分工
-
大数据技术发展趋势与行业落地场景
-
数据库基础(MySQL)与SQL入门
-
大数据学习方法与技能提升路径
-
大数据项目开发全流程概述
-
常见大数据技术误区与规避
-
大数据生态全景图解读与实操入门
专题2:Linux基础与大数据环境部署
培训对象
-
大数据入门者、需要掌握环境部署的IT人员
-
大数据开发、运维岗位基础薄弱的从业者
培训目标
-
熟练掌握Linux系统核心操作命令,满足大数据环境部署需求。
-
掌握虚拟机搭建与网络配置,能够独立部署单机/集群环境。
-
具备大数据环境故障排查基础能力,保障环境稳定运行。
培训内容
-
Linux系统简介与安装(CentOS)
-
Linux基础命令(文件、目录、权限管理)
-
Linux用户、组管理与权限配置
-
Linux网络配置(IP、主机名、防火墙)
-
虚拟机(VMware)搭建与克隆
-
SSH远程连接与免密登录配置
-
Linux软件安装与卸载(rpm、yum)
-
JDK安装与环境变量配置
-
大数据单机环境部署核心步骤
-
大数据集群环境基础配置(免密、时间同步)
-
环境部署常见错误与排查方法
-
Linux常用工具(vim、rz/sz)使用技巧
专题3:Hadoop生态核心技术实战
培训对象
培训目标
-
理解Hadoop核心组件(HDFS、YARN、MapReduce)原理与架构。
-
熟练部署Hadoop集群,掌握核心组件的启动与管理。
-
能够运用Hadoop组件完成基础的数据存储与离线计算任务。
培训内容
-
Hadoop核心架构与组件协同关系
-
HDFS分布式存储原理(NameNode、DataNode)
-
-
YARN资源调度原理与核心组件
-
YARN集群配置与资源分配优化
-
MapReduce计算模型与执行流程
-
MapReduce核心编程与案例实战
-
Hadoop集群部署、启动与停止
-
Hadoop集群监控与日志分析
-
Hadoop常见故障(集群启动失败、数据丢失)排查
-
Zookeeper分布式协调服务原理与应用
-
Hadoop实战案例:日志数据存储与简单分析
专题4:大数据离线计算(Spark方向)
培训对象
-
大数据开发、数据分析师、数据仓库工程师
-
掌握Hadoop基础,想提升离线计算能力的人员
培训目标
-
理解Spark核心原理、架构与运行机制,掌握Spark与MapReduce的区别。
-
熟练使用Spark Core、Spark SQL进行离线数据处理与分析。
-
具备Spark程序性能调优基础能力,完成复杂离线计算任务。
培训内容
-
Spark核心原理与架构(Driver、Executor)
-
Spark与Hadoop MapReduce的对比优势
-
Spark运行环境搭建(Local、Standalone、YARN)
-
Spark Core核心概念(RDD、分区、依赖)
-
Spark Core算子(转换、行动算子)实战
-
Spark SQL基础与DataFrame、DataSet操作
-
Spark SQL查询优化与性能调优
-
Spark批处理任务开发与提交
-
Spark集群管理与任务监控
-
Spark常见性能问题(数据倾斜)排查与解决
-
Spark离线分析实战案例(用户行为分析)
-
Presto/Impala交互式查询基础应用
专题5:大数据实时计算(Kafka+Flink方向)
培训对象
培训目标
-
理解Kafka消息队列、Flink实时计算核心原理与架构。
-
熟练部署Kafka、Flink集群,掌握核心操作与开发方法。
-
能够开发实时计算任务,实现实时数据采集、处理与输出。
培训内容
-
Kafka核心原理与架构(Producer、Consumer、Broker)
-
Kafka集群部署、主题配置与权限管理
-
Kafka生产者/消费者开发与参数优化
-
Kafka消息可靠性保障与故障排查
-
Flink核心原理与架构(JobManager、TaskManager)
-
Flink运行环境搭建与集群配置
-
Flink核心概念(Stream、Window、State)
-
Flink DataStream API开发实战
-
Flink状态管理与容错机制
-
Flink与Kafka集成实战(实时数据采集)
-
Flink实时计算任务调优与监控
-
实时计算实战案例(实时流量统计)
专题6:大数据采集与数据同步实战
培训对象
-
大数据开发、数据采集工程师、ETL工程师
-
需要掌握数据接入技能的大数据相关从业者
培训目标
-
理解大数据采集与同步的核心场景与需求,掌握主流工具原理。
-
熟练使用Flume、Sqoop、DataX等工具完成数据采集与同步。
-
能够应对不同数据源(日志、数据库)的采集需求,保障数据一致性。
培训内容
-
大数据采集场景与核心需求(离线、实时采集)
-
Flume核心原理与架构(Source、Channel、Sink)
-
Flume配置与实战(日志数据采集到HDFS/Kafka)
-
Flume集群部署与性能优化
-
Sqoop原理与数据库(MySQL)数据导入/导出
-
Sqoop参数配置与增量数据同步实战
-
DataX核心原理与多数据源同步配置
-
DataX实战(关系型数据库与HDFS数据同步)
-
Canal原理与MySQL binlog日志采集实战
-
FileBeat轻量级日志采集工具使用
-
数据采集过程中的数据清洗与去重基础
-
采集工具常见故障排查与数据一致性保障
专题7:数据仓库建模与ETL开发
培训对象
-
数据仓库工程师、ETL工程师、大数据开发工程师
-
想从事数据建模与数据处理工作的IT人员
培训目标
-
理解数据仓库核心概念、建模原则与分层架构,掌握主流建模方法。
-
熟练完成数据仓库分层建模,开发高效的ETL数据处理流程。
-
具备数据仓库优化与问题排查能力,保障数据仓库稳定运行。
培训内容
-
数据仓库核心概念(事实表、维度表、粒度)
-
数据仓库分层架构(ODS、DWD、DWS、ADS)
-
主流数据建模方法(星型模型、雪花模型)
-
数据仓库建模流程与规范
-
ETL核心概念与开发流程(抽取、转换、加载)
-
Hive SQL进阶与ETL脚本开发
-
数据清洗、转换、关联的常用方法
-
增量ETL与全量ETL开发实战
-
数据仓库元数据管理基础(Atlas)
-
ETL任务监控与故障排查
-
数据仓库性能优化(分区、索引)
-
数据仓库实战案例(业务数据建模与ETL开发)
专题8:大数据调度与运维管理
培训对象
-
大数据运维工程师、大数据开发工程师(兼顾运维)
-
负责大数据集群管理与任务调度的人员
培训目标
-
理解大数据调度工具核心原理与运维核心需求,掌握集群管理方法。
-
熟练部署与使用调度工具,完成ETL、计算任务的调度与监控。
-
具备大数据集群高可用配置、故障排查与性能优化能力。
培训内容
-
大数据任务调度核心场景与需求
-
Azkaban原理与任务调度实战
-
Airflow核心概念与DAG任务编排
-
Airflow任务配置、调度与监控
-
DolphinScheduler分布式调度工具使用
-
大数据集群运维核心职责与流程
-
Hadoop、Spark、Flink集群日常维护
-
大数据集群高可用配置(HA)
-
Docker容器化部署大数据组件
-
K8s大数据集群编排与管理基础
-
Prometheus大数据集群监控实战
-
大数据集群常见故障排查与应急处理
专题9:大数据查询与可视化应用
培训对象
-
数据分析师、大数据开发工程师、BI工程师
-
需要将大数据转化为可视化报表的相关人员
培训目标
-
掌握大数据查询引擎核心原理,能够高效查询与分析大数据。
-
熟练使用可视化工具,制作规范、直观的大数据可视化报表。
-
能够通过可视化分析数据,挖掘数据价值,支撑业务决策。
培训内容
-
ClickHouse实时分析引擎原理与部署
-
ClickHouse核心语法与查询优化
-
Elasticsearch原理与大数据检索应用
-
大数据查询引擎对比(ClickHouse、Presto)
-
数据可视化核心原则与报表设计规范
-
Tableau核心操作与可视化图表制作
-
Power BI数据连接与报表开发实战
-
Superset开源可视化工具部署与使用
-
大数据指标体系搭建与可视化呈现
-
可视化报表交互设计与权限管理
-
可视化工具与大数据平台集成
-
可视化分析实战案例(业务数据可视化报表开发)
专题10:大数据常用工具综合实战
培训对象
-
大数据相关岗位从业者(开发、运维、分析)
-
掌握大数据基础工具,想提升综合实战能力的人员
培训目标
-
整合大数据全流程工具,掌握各组件协同使用方法。
-
能够独立完成大数据项目从采集、存储、计算到可视化的全流程开发。
-
提升大数据项目实战与问题解决能力,适配企业实际工作需求。
培训内容
-
大数据综合项目架构设计与需求拆解
-
项目环境搭建(Hadoop+Spark+Kafka+Flink)
-
数据采集(Flume/Canal)与同步(Sqoop/DataX)实战
-
数据仓库分层建模与ETL开发
-
离线计算(Spark SQL)任务开发与调度
-
实时计算(Flink+Kafka)任务开发
-
ClickHouse实时查询与数据聚合
-
数据可视化报表(Tableau)开发
-
项目监控与日志分析系统搭建
-
项目性能调优与故障排查实战
-
大数据项目部署与上线流程
-
综合实战项目复盘与经验沉淀
如果您想学习本课程,请
预约报名
如果没找到合适的课程或有特殊培训需求,请
订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请
服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。
专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获