大数据培训课程（选修）-中科信软培训中心

大数据技术概论：大数据的发展历程、核心概念（4V）、企业应用场景及主流技术栈全景图解析。
Linux 操作系统实战：大数据平台底层的 Linux 环境配置、网络管理、Shell 脚本编程及自动化任务设计。
Hadoop 框架精讲：HDFS 分布式文件系统架构、YARN 资源调度框架原理、MapReduce 计算模型的工作机制。
HDFS 核心操作：分布式文件系统的 shell 操作、Java API 应用、数据读写流程原理及副本机制管理。
YARN 资源调度：资源调度器（FIFO、容量调度器、公平调度器）的配置与策略选择，任务监控与日志管理。
集群环境搭建：基于原生 Apache Hadoop 或 CDH 的商业发行版，完成完全分布式集群的安装、配置与格式化。
Zookeeper 协调服务：分布式一致性原理、ZAB 协议、Zookeeper 集群的安装部署及在 HA（高可用）架构中的应用。
Hadoop HA 高可用：基于 Zookeeper 实现 HDFS NameNode 和 YARN ResourceManager 的高可用配置与故障转移测试。
Flume 日志采集：分布式日志收集系统架构，Source/Channel/Sink 组件配置，实现日志数据的高效采集与聚合。
Kafka 消息队列：Kafka 架构原理、Topic/Partition 机制、命令行操作、Java 生产者和消费者 API 开发。
集群监控与运维：集群性能指标监控（如 Ganglia、Prometheus）、日常巡检内容、常见故障排查与解决方案。
综合实战：构建“日志数据采集平台”，使用 Flume 采集日志写入 Kafka，再分发至 HDFS 存储的全流程搭建。

专题二：大数据仓库与数据治理

培训对象：数据仓库工程师、ETL 开发工程师、数据分析师。
培训目标：掌握 Hive 数仓工具及高效计算引擎，理解企业数据治理体系，包括元数据管理、数据质量与生命周期管理，具备构建分层数仓的能力。
培训内容（12条目）：

数据仓库理论：数仓建模方法论（ER 模型、维度建模）、分层架构（ODS、DWD、DWS、ADS）及 Kimball 与 Inmon 方法论对比。
Hive 数据仓库：Hive 架构原理、与传统数据库的区别、HiveQL 基础、内部表与外部表、分区表和分桶表的应用。
Hive 高级查询：复杂数据类型操作、高级查询语法（窗口函数、行转列、列转行）、UDF（用户自定义函数）/UDAF 开发实战。
Spark SQL 快速引擎：Spark SQL 架构、DataFrame/Dataset API、与 Hive 的集成、基于内存的计算优化与执行计划解析。
数据采集同步：使用 DataX 或 Sqoop 实现关系型数据库（MySQL/Oracle）与 Hadoop 集群之间的高效数据批量导入导出。
数据治理概述：数据治理体系框架（DAMA/DMBOK）、数据治理组织与职责、数据管理制度与规范建设。
元数据管理：元数据分类（技术元数据/业务元数据）、使用 Atlas 或 DataHub 进行血缘关系分析（数据从哪里来、到哪里去）。
数据质量管理：数据质量六性（完整性、准确性、一致性、及时性、唯一性、有效性）、质量检查规则配置与监控报告输出。
数据生命周期：数据冷热分层策略、数据归档策略、数据清理机制与数据血缘追踪管理。
数据安全与权限：数据脱敏技术、Hive 引擎的 Ranger/Sentry 权限控制模型、行级/列级权限管控配置。
ETL 调度系统：调度系统（如 Apache DolphinScheduler）的核心功能，工作流定义、定时调度、任务依赖与失败重跑机制。
综合实战：构建“用户行为数仓”，完成从业务数据采集 -> 分层建模 -> 指标分析 -> 元数据血缘追踪的全流程项目。

专题三：Python 编程与数据分析挖掘

培训对象：数据分析师、算法工程师、数据科学家、Python 开发者。
培训目标：使学员掌握 Python 进行数据处理、分析和挖掘的核心技能，熟练使用数据分析核心库，理解常用机器学习算法原理并能进行项目实战。
培训内容（12条目）：

Python 基础语法：Python 开发环境搭建、基本数据类型、流程控制、函数定义与调用、文件 I/O 操作及异常处理。
NumPy 数值计算：N 维数组创建与操作、广播机制、通用函数、线性代数运算及随机数生成。
Pandas 数据处理：Series 和 DataFrame 数据结构、数据读写（CSV/Excel/JSON）、数据清洗（缺失值/重复值处理）、数据转换与规整。
Pandas 数据操作：数据筛选与索引、分组聚合（groupby）、数据合并（merge/concat）、数据透视表与交叉表分析。
Matplotlib 可视化：折线图、柱状图、散点图、饼图等常用图表的绘制、图形属性设置（颜色、标签、图例）及多子图布局。
Seaborn 高级可视化：基于 Matplotlib 的高级可视化库，绘制统计关系图、分类图、分布图及热力图。
数据预处理：数据标准化/归一化、离散化、哑变量处理、特征选择（过滤式/包裹式/嵌入式）与特征提取。
回归分析算法：线性回归（最小二乘法/梯度下降）、逻辑回归原理、模型评估（R 方/均方误差/混淆矩阵）。
分类算法实战：K-近邻（KNN）、决策树（ID3/C4.5/CART）、朴素贝叶斯、支持向量机（SVM）的原理及应用。
聚类算法实战：K-Means 聚类（肘部法则/轮廓系数）、DBSCAN 密度聚类、层次聚类的原理与案例。
关联规则挖掘：Apriori 算法原理、支持度/置信度/提升度计算、FP-Growth 算法及购物篮分析实战。
综合实战：基于电商客户消费数据，进行客户画像分析与客户价值细分（RFM 模型），使用聚类算法实现客户分群。

专题四：实时计算与流处理技术

培训对象：Java/Scala 开发工程师、实时计算开发工程师、架构师。
培训目标：使学员掌握企业级流式计算框架，理解 Exactly-Once 语义、状态一致性等核心机制，能够基于 Flink 构建高吞吐、低延迟的实时处理应用。
培训内容（12条目）：

流式计算概论：批处理与流处理的区别、实时计算应用场景（实时大屏/风控/监控）、主流实时计算框架对比（Storm/Spark Streaming/Flink）。
Flink 基础架构：Flink 系统架构（JobManager/TaskManager）、运行时的组件、任务调度机制与部署模式（On YARN/K8S）。
DataStream API：DataStream 的转换操作（map/flatmap/filter/keyby/window）、数据分区策略与自定义 Sink 开发。
时间语义与 Watermark：Event Time、Processing Time、Ingestion Time 的区别，Watermark 机制原理及乱序数据处理，迟到数据处理策略。
窗口计算：滚动窗口（Tumbling）、滑动窗口（Sliding）、会话窗口（Session）的应用，窗口函数（ReduceFunction/AggregateFunction/ProcessWindowFunction）的使用。
状态管理与容错：Flink 状态类型（Keyed State/Operator State）、状态后端（Memory/Fs/RocksDB）配置、Checkpoint 与 Savepoint 的容错机制。
Exactly-Once 语义：端到端的 Exactly-Once 实现原理，两阶段提交协议（2PC）在 Flink 中的应用。
Table API & SQL：Flink Table API 编程范式、动态表与流的概念转换、基于 SQL 的实时查询与维表关联。
Flink CDC 技术：基于 Flink CDC 捕获数据库变更日志，实现实时数据同步与实时数仓 ODS 层构建。
复杂事件处理（CEP）：CEP 库的使用、Pattern API 定义事件模式（严格近邻/宽松近邻）、检测复杂事件序列（如告警规则引擎）。
性能优化：反压检测与处理、Checkpoint 调优、状态数据倾斜优化、MiniBatch 聚合优化策略。
综合实战：开发“实时订单统计大屏”，读取 Kafka 订单流数据，计算实时 GMV、热门商品 TopN，并输出至 Redis 供前端展示。

专题五：大数据高级分析与人工智能应用

培训对象：算法工程师、机器学习工程师、有一定 Python 基础的数据从业者。
培训目标：使学员掌握深度学习基础及自然语言处理、知识图谱等高级分析技术，了解大模型的本地化部署与调用，具备解决复杂数据问题的能力。
培训内容（12条目）：

深度学习基础：神经网络基础（感知机/激活函数/反向传播）、深度学习框架（PyTorch/TensorFlow）入门。
卷积神经网络（CNN）：卷积层/池化层/全连接层原理、经典网络结构（LeNet/ResNet）及图像分类实战。
循环神经网络（RNN）：RNN/LSTM/GRU 结构原理、序列数据处理（文本/时间序列）及情感分析建模。
自然语言处理（NLP）：文本预处理（分词/去停用词）、词向量技术（Word2Vec）、Transformer 模型架构与注意力机制。
知识图谱技术：知识图谱构建技术（实体识别/关系抽取）、图数据库（Neo4j）基础、知识查询与推理应用。
推荐系统核心：推荐算法分类（基于内容/协同过滤）、协同过滤（User-based/Item-based）、矩阵分解（SVD）原理。
推荐系统进阶：冷启动问题解决方案、基于深度学习的推荐模型（DeepFM）、召回与排序的两阶段架构。
大语言模型应用：开源大模型（如 Llama、ChatGLM、DeepSeek）介绍、提示词工程、检索增强生成（RAG）技术原理。
本地模型部署：使用 Ollama/LangChain 等工具在本地部署和调用大模型 API，构建本地知识库问答系统。
模型评估与优化：过拟合与欠拟合处理、交叉验证、超参数调优（网格搜索/贝叶斯优化）、A/B 测试设计。
模型服务：使用 Flask/FastAPI 封装模型为 RESTful API、使用 Docker 容器化模型、模型生命周期管理基础。
综合实战：基于用户评论数据，结合 NLP 情感分析与推荐算法，构建“智能商品推荐与舆情分析系统”。

专题六：数据可视化与 BI 商业智能

培训对象：业务分析师、数据分析师、需要构建数据报表的 IT 人员。
培训目标：使学员掌握数据可视化设计原则，能够熟练使用 BI 工具连接数据源、构建看板，并具备开发定制化可视化页面的能力。
培训内容（12条目）：

可视化基础理论：数据可视化设计原则、视觉感知与认知原理、图表类型选择指南（对比/趋势/分布/构成）。
BI 工具概览：主流 BI 工具对比（FineBI、Tableau、PowerBI），企业 BI 建设方法论与实施流程。
Tableau/PowerBI 实战：数据连接与预处理、创建计算字段、构建仪表板与故事、发布与共享报表。
ECharts 前端可视化：ECharts 库的使用，绘制折线图、柱状图、地图、仪表盘等复杂图表，配置项详解与交互事件处理。
PyECharts 整合：在 Python 环境中调用 PyECharts 生成动态网页图表，实现数据分析与可视化的无缝衔接。
大屏可视化技术：大屏可视化设计规范、分辨率适配方案、使用 DataV 或开源组件构建实时数据大屏。
Superset 平台搭建：开源 BI 平台 Apache Superset 的安装部署、数据源配置、图表创建与看板管理。
SQL 查询优化：针对 BI 报表的 SQL 查询优化技巧，索引使用、查询计划分析，确保报表加载性能。
数据故事讲述：如何通过数据讲述商业故事，利用可视化元素引导用户洞察，制作数据报告的最佳实践。
移动端适配：移动端数据可视化的特点、响应式布局设计、移动端 BI 应用配置。
地理信息可视化：地理坐标数据处理、地图热力图、迁徙图绘制、GIS 基础知识与集成。
综合实战：针对“企业销售数据”，从数据清洗到 Tableau 看板制作，再到 ECharts 定制化大屏开发，完成全流程可视化分析。

如果您想学习本课程，请预约报名
如果没找到合适的课程或有特殊培训需求，请订制培训
除培训外，同时提供相关技术咨询与技术支持服务，有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点：
海量专家资源，精准匹配相关行业，相关项目专家，针对实际需求，顾问式咨询，互动式授课，案例教学，小班授课，实际项目演示，快捷高效，省时省力省钱。

专家力量：
中国科学院软件研究所，计算研究所高级研究人员
oracle,微软，vmware，MSC,Ansys，candence,Altium,达索等大型公司高级工程师，项目经理，技术支持专家
中科信软培训中心，资深专家或讲师
大多名牌大学，硕士以上学历，相关技术专业，理论素养丰富
多年实际项目经历，大型项目实战案例，热情，乐于技术分享
针对客户实际需求，案例教学，互动式沟通，学有所获

报名表下载

点击进入报名表

联系我们更多>>

咨询电话：010-62883247

4007991916

咨询邮箱：soft@info-soft.cn

微信咨询

随时听讲课

聚焦技术实践