课程培训
大数据培训课程(选修)

大数据培训课程体系(选修)

目录:

专题一:大数据底座与平台构建(Hadoop 生态核心)

专题二:大数据仓库与数据治理

专题三:Python 编程与数据分析挖掘

专题四:实时计算与流处理技术

专题五:大数据高级分析与人工智能应用

专题六:数据可视化与 BI 商业智能


 

专题一:大数据底座与平台构建(Hadoop 生态核心)

培训对象:系统管理员、运维工程师、大数据平台开发入门者。
培训目标:使学员掌握企业级大数据平台的搭建、配置与管理能力,理解分布式文件系统和资源调度核心机制,能够独立部署高可用集群。
培训内容(12条目)

  1. 大数据技术概论:大数据的发展历程、核心概念(4V)、企业应用场景及主流技术栈全景图解析 。

  2. Linux 操作系统实战:大数据平台底层的 Linux 环境配置、网络管理、Shell 脚本编程及自动化任务设计 。

  3. Hadoop 框架精讲:HDFS 分布式文件系统架构、YARN 资源调度框架原理、MapReduce 计算模型的工作机制 。

  4. HDFS 核心操作:分布式文件系统的 shell 操作、Java API 应用、数据读写流程原理及副本机制管理。

  5. YARN 资源调度:资源调度器(FIFO、容量调度器、公平调度器)的配置与策略选择,任务监控与日志管理。

  6. 集群环境搭建:基于原生 Apache Hadoop 或 CDH 的商业发行版,完成完全分布式集群的安装、配置与格式化 。

  7. Zookeeper 协调服务:分布式一致性原理、ZAB 协议、Zookeeper 集群的安装部署及在 HA(高可用)架构中的应用 。

  8. Hadoop HA 高可用:基于 Zookeeper 实现 HDFS NameNode 和 YARN ResourceManager 的高可用配置与故障转移测试。

  9. Flume 日志采集:分布式日志收集系统架构,Source/Channel/Sink 组件配置,实现日志数据的高效采集与聚合 。

  10. Kafka 消息队列:Kafka 架构原理、Topic/Partition 机制、命令行操作、Java 生产者和消费者 API 开发 。

  11. 集群监控与运维:集群性能指标监控(如 Ganglia、Prometheus)、日常巡检内容、常见故障排查与解决方案 。

  12. 综合实战:构建“日志数据采集平台”,使用 Flume 采集日志写入 Kafka,再分发至 HDFS 存储的全流程搭建。

 

专题二:大数据仓库与数据治理

培训对象:数据仓库工程师、ETL 开发工程师、数据分析师。
培训目标:掌握 Hive 数仓工具及高效计算引擎,理解企业数据治理体系,包括元数据管理、数据质量与生命周期管理,具备构建分层数仓的能力。
培训内容(12条目)

  1. 数据仓库理论:数仓建模方法论(ER 模型、维度建模)、分层架构(ODS、DWD、DWS、ADS)及 Kimball 与 Inmon 方法论对比。

  2. Hive 数据仓库:Hive 架构原理、与传统数据库的区别、HiveQL 基础、内部表与外部表、分区表和分桶表的应用 。

  3. Hive 高级查询:复杂数据类型操作、高级查询语法(窗口函数、行转列、列转行)、UDF(用户自定义函数)/UDAF 开发实战。

  4. Spark SQL 快速引擎:Spark SQL 架构、DataFrame/Dataset API、与 Hive 的集成、基于内存的计算优化与执行计划解析 。

  5. 数据采集同步:使用 DataX 或 Sqoop 实现关系型数据库(MySQL/Oracle)与 Hadoop 集群之间的高效数据批量导入导出。

  6. 数据治理概述:数据治理体系框架(DAMA/DMBOK)、数据治理组织与职责、数据管理制度与规范建设 。

  7. 元数据管理:元数据分类(技术元数据/业务元数据)、使用 Atlas 或 DataHub 进行血缘关系分析(数据从哪里来、到哪里去)。

  8. 数据质量管理:数据质量六性(完整性、准确性、一致性、及时性、唯一性、有效性)、质量检查规则配置与监控报告输出 。

  9. 数据生命周期:数据冷热分层策略、数据归档策略、数据清理机制与数据血缘追踪管理 。

  10. 数据安全与权限:数据脱敏技术、Hive 引擎的 Ranger/Sentry 权限控制模型、行级/列级权限管控配置 。

  11. ETL 调度系统:调度系统(如 Apache DolphinScheduler)的核心功能,工作流定义、定时调度、任务依赖与失败重跑机制。

  12. 综合实战:构建“用户行为数仓”,完成从业务数据采集 -> 分层建模 -> 指标分析 -> 元数据血缘追踪的全流程项目。

 

专题三:Python 编程与数据分析挖掘

培训对象:数据分析师、算法工程师、数据科学家、Python 开发者。
培训目标:使学员掌握 Python 进行数据处理、分析和挖掘的核心技能,熟练使用数据分析核心库,理解常用机器学习算法原理并能进行项目实战。
培训内容(12条目)

  1. Python 基础语法:Python 开发环境搭建、基本数据类型、流程控制、函数定义与调用、文件 I/O 操作及异常处理 。

  2. NumPy 数值计算:N 维数组创建与操作、广播机制、通用函数、线性代数运算及随机数生成 。

  3. Pandas 数据处理:Series 和 DataFrame 数据结构、数据读写(CSV/Excel/JSON)、数据清洗(缺失值/重复值处理)、数据转换与规整 。

  4. Pandas 数据操作:数据筛选与索引、分组聚合(groupby)、数据合并(merge/concat)、数据透视表与交叉表分析 。

  5. Matplotlib 可视化:折线图、柱状图、散点图、饼图等常用图表的绘制、图形属性设置(颜色、标签、图例)及多子图布局 。

  6. Seaborn 高级可视化:基于 Matplotlib 的高级可视化库,绘制统计关系图、分类图、分布图及热力图。

  7. 数据预处理:数据标准化/归一化、离散化、哑变量处理、特征选择(过滤式/包裹式/嵌入式)与特征提取 。

  8. 回归分析算法:线性回归(最小二乘法/梯度下降)、逻辑回归原理、模型评估(R 方/均方误差/混淆矩阵)。

  9. 分类算法实战:K-近邻(KNN)、决策树(ID3/C4.5/CART)、朴素贝叶斯、支持向量机(SVM)的原理及应用 。

  10. 聚类算法实战:K-Means 聚类(肘部法则/轮廓系数)、DBSCAN 密度聚类、层次聚类的原理与案例 。

  11. 关联规则挖掘:Apriori 算法原理、支持度/置信度/提升度计算、FP-Growth 算法及购物篮分析实战 。

  12. 综合实战:基于电商客户消费数据,进行客户画像分析与客户价值细分(RFM 模型),使用聚类算法实现客户分群。

 

专题四:实时计算与流处理技术

培训对象:Java/Scala 开发工程师、实时计算开发工程师、架构师。
培训目标:使学员掌握企业级流式计算框架,理解 Exactly-Once 语义、状态一致性等核心机制,能够基于 Flink 构建高吞吐、低延迟的实时处理应用。
培训内容(12条目)

  1. 流式计算概论:批处理与流处理的区别、实时计算应用场景(实时大屏/风控/监控)、主流实时计算框架对比(Storm/Spark Streaming/Flink)。

  2. Flink 基础架构:Flink 系统架构(JobManager/TaskManager)、运行时的组件、任务调度机制与部署模式(On YARN/K8S)。

  3. DataStream API:DataStream 的转换操作(map/flatmap/filter/keyby/window)、数据分区策略与自定义 Sink 开发。

  4. 时间语义与 Watermark:Event Time、Processing Time、Ingestion Time 的区别,Watermark 机制原理及乱序数据处理,迟到数据处理策略。

  5. 窗口计算:滚动窗口(Tumbling)、滑动窗口(Sliding)、会话窗口(Session)的应用,窗口函数(ReduceFunction/AggregateFunction/ProcessWindowFunction)的使用。

  6. 状态管理与容错:Flink 状态类型(Keyed State/Operator State)、状态后端(Memory/Fs/RocksDB)配置、Checkpoint 与 Savepoint 的容错机制 。

  7. Exactly-Once 语义:端到端的 Exactly-Once 实现原理,两阶段提交协议(2PC)在 Flink 中的应用。

  8. Table API & SQL:Flink Table API 编程范式、动态表与流的概念转换、基于 SQL 的实时查询与维表关联。

  9. Flink CDC 技术:基于 Flink CDC 捕获数据库变更日志,实现实时数据同步与实时数仓 ODS 层构建。

  10. 复杂事件处理(CEP):CEP 库的使用、Pattern API 定义事件模式(严格近邻/宽松近邻)、检测复杂事件序列(如告警规则引擎)。

  11. 性能优化:反压检测与处理、Checkpoint 调优、状态数据倾斜优化、MiniBatch 聚合优化策略。

  12. 综合实战:开发“实时订单统计大屏”,读取 Kafka 订单流数据,计算实时 GMV、热门商品 TopN,并输出至 Redis 供前端展示。

 

专题五:大数据高级分析与人工智能应用

培训对象:算法工程师、机器学习工程师、有一定 Python 基础的数据从业者。
培训目标:使学员掌握深度学习基础及自然语言处理、知识图谱等高级分析技术,了解大模型的本地化部署与调用,具备解决复杂数据问题的能力。
培训内容(12条目)

  1. 深度学习基础:神经网络基础(感知机/激活函数/反向传播)、深度学习框架(PyTorch/TensorFlow)入门 。

  2. 卷积神经网络(CNN):卷积层/池化层/全连接层原理、经典网络结构(LeNet/ResNet)及图像分类实战 。

  3. 循环神经网络(RNN):RNN/LSTM/GRU 结构原理、序列数据处理(文本/时间序列)及情感分析建模 。

  4. 自然语言处理(NLP):文本预处理(分词/去停用词)、词向量技术(Word2Vec)、Transformer 模型架构与注意力机制 。

  5. 知识图谱技术:知识图谱构建技术(实体识别/关系抽取)、图数据库(Neo4j)基础、知识查询与推理应用 。

  6. 推荐系统核心:推荐算法分类(基于内容/协同过滤)、协同过滤(User-based/Item-based)、矩阵分解(SVD)原理 。

  7. 推荐系统进阶:冷启动问题解决方案、基于深度学习的推荐模型(DeepFM)、召回与排序的两阶段架构。

  8. 大语言模型应用:开源大模型(如 Llama、ChatGLM、DeepSeek)介绍、提示词工程、检索增强生成(RAG)技术原理 。

  9. 本地模型部署:使用 Ollama/LangChain 等工具在本地部署和调用大模型 API,构建本地知识库问答系统 。

  10. 模型评估与优化:过拟合与欠拟合处理、交叉验证、超参数调优(网格搜索/贝叶斯优化)、A/B 测试设计。

  11. 模型服务:使用 Flask/FastAPI 封装模型为 RESTful API、使用 Docker 容器化模型、模型生命周期管理基础。

  12. 综合实战:基于用户评论数据,结合 NLP 情感分析与推荐算法,构建“智能商品推荐与舆情分析系统”。

 

专题六:数据可视化与 BI 商业智能

培训对象:业务分析师、数据分析师、需要构建数据报表的 IT 人员。
培训目标:使学员掌握数据可视化设计原则,能够熟练使用 BI 工具连接数据源、构建看板,并具备开发定制化可视化页面的能力。
培训内容(12条目)

  1. 可视化基础理论:数据可视化设计原则、视觉感知与认知原理、图表类型选择指南(对比/趋势/分布/构成)。

  2. BI 工具概览:主流 BI 工具对比(FineBI、Tableau、PowerBI),企业 BI 建设方法论与实施流程。

  3. Tableau/PowerBI 实战:数据连接与预处理、创建计算字段、构建仪表板与故事、发布与共享报表 。

  4. ECharts 前端可视化:ECharts 库的使用,绘制折线图、柱状图、地图、仪表盘等复杂图表,配置项详解与交互事件处理 。

  5. PyECharts 整合:在 Python 环境中调用 PyECharts 生成动态网页图表,实现数据分析与可视化的无缝衔接。

  6. 大屏可视化技术:大屏可视化设计规范、分辨率适配方案、使用 DataV 或开源组件构建实时数据大屏 。

  7. Superset 平台搭建:开源 BI 平台 Apache Superset 的安装部署、数据源配置、图表创建与看板管理。

  8. SQL 查询优化:针对 BI 报表的 SQL 查询优化技巧,索引使用、查询计划分析,确保报表加载性能。

  9. 数据故事讲述:如何通过数据讲述商业故事,利用可视化元素引导用户洞察,制作数据报告的最佳实践。

  10. 移动端适配:移动端数据可视化的特点、响应式布局设计、移动端 BI 应用配置。

  11. 地理信息可视化:地理坐标数据处理、地图热力图、迁徙图绘制、GIS 基础知识与集成。

  12. 综合实战:针对“企业销售数据”,从数据清洗到 Tableau 看板制作,再到 ECharts 定制化大屏开发,完成全流程可视化分析。


 




如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>