课程培训
大数据建模与挖掘培训课程6

 

大数据建模与挖掘培训课程大纲

 

培训对象

  • 数据分析师/数据挖掘工程师/算法工程师

  • 大数据系统开发部、运营分析部、业务支撑部等相关人员

  • 需要从数据中挖掘价值的产品经理/业务人员

  • 金融/电商/电信/互联网等行业的数据从业者

  • 希望提升数据建模与分析能力的职场人士

 

培训目标
使学员系统掌握大数据建模与分析挖掘的核心方法论与完整流程,理解从业务理解、数据探索、特征工程到模型构建与评估的全链路技术
;熟练运用主流大数据平台工具(Hadoop/Spark/Hive)进行分布式数据处理与挖掘;掌握分类、聚类、回归、推荐、时序预测等经典算法的原理与实战应用;能够结合具体业务场景(客户流失预警、电商推荐、金融风控等)完成数据挖掘项目,提升数据驱动业务决策的能力。


 

培训内容介绍

 

一、数据建模概述与方法论

1.1 数据建模概念:数据建模解决的核心问题;为什么要数据建模;什么是逻辑数据模型;模型设计的完整流程

1.2 预测建模六步法:选择模型(基于业务选择恰当的数据模型);特征工程(选择对目标变量有显著影响的属性);训练模型(采用合适算法寻找到最优参数);评估模型(判断模型是否可用);优化模型(评估结果不理想时的优化策略);应用模型(评估通过后应用于业务场景)

1.3 数据挖掘核心任务:数据挖掘的五大核心任务(分类/聚类/回归/关联规则/时序预测);定量预测模型(回归预测、时序预测);定性预测模型(逻辑回归、决策树、神经网络、支持向量机等)

 

二、大数据平台分析与挖掘工具

2.1 平台架构:业界主流基于Hadoop和Spark的大数据分析挖掘解决方案;Hadoop生态体系与数据仓库工具Hive、Tez、Kylin、Presto;Spark实时数据仓库工具Spark SQL

2.2 挖掘工具:Spark机器学习与数据挖掘工具MLlib和SparkR;R语言介绍与常用分析库;Python数据挖掘生态(NumPy/Pandas/Matplotlib/Scikit-learn);大数据分析挖掘项目的实施步骤

 

三、数据集成与预处理技术

3.1 数据集成:多源异构数据采集(日志/数据库/API);日志数据解析与导入导出;从原始数据集中抽取、集成数据,整理形成规范的数据仓库

3.2 数据预处理:数据清洗(缺失值处理/异常值检测与处理/噪声平滑);数据变换(标准化/归一化/离散化);数据规约与特征提取

 

四、探索性数据分析与特征工程

4.1 探索性数据分析:数据探索的目标与流程;单变量数据探索(分布/集中趋势/离散程度);数据关联性分析(相关性矩阵/交叉分析);数据相似性度量

4.2 特征工程:特征工程构建与选择;特征选择方法(过滤式/包裹式/嵌入式);特征提取(PCA主成分分析/因子分析);IV值筛选(评分卡使用);基于信息增益判断(决策树使用)

 

五、Hive数据仓库集群的多维分析建模

5.1 Hive架构:基于Hadoop的大型分布式数据仓库在行业中的应用案例;Hive数据仓库集群的体系结构与核心技术剖析;Hive Server工作原理与机制

5.2 多维分析:Hive SQL剖析与应用实践;Hive数据仓库表与表分区、表操作、数据导入导出;Hive数据仓库报表设计;将原始日志数据集加载至Hadoop+Hive集群

 

六、分类预测模型(上)——逻辑回归与决策树

6.1 逻辑回归:逻辑回归的适用场景;逻辑回归的模型原理(Sigmoid函数/最大似然估计);二项与多项逻辑回归;逻辑回归系数解读(优势比);SAS/EM逻辑回归节点配置。

6.2 决策树模型:决策树算法(C5.0/CHAID/CART/QUEST);构建决策树的三个关键问题(如何选择最佳属性/如何分裂变量/修剪决策树);决策树在客户流失预警、风险识别中的应用;Spark决策树算法实现

 

七、分类预测模型(下)——神经网络与支持向量机

7.1 神经网络模型:人工神经网络基本原理;神经网络的结构与分类几何意义;BP反向传播网络(MLP);径向基网络(RBF);神经网络在信用卡欺诈检测中的应用。

7.2 支持向量机:SVM基本原理(最大边界超平面);线性可分与线性不可分问题;核函数技巧(线性核/多项式核/径向基核);维灾难与核函数;Spark SVM程序设计

7.3 其他分类算法:朴素贝叶斯分类器(贝叶斯原理/条件概率计算/拉普拉斯修正);K-近邻(KNN)算法;判别分析(DA)

 

八、模型评估与集成优化

8.1 模型评估指标:两大矩阵(混淆矩阵、代价矩阵);六大指标(准确率/召回率/精确率/F1值/Lift值/特异性);三条曲线(ROC曲线与AUC、PR曲线与BEP、KS曲线与KS值)

8.2 模型验证方法:留出法(Hold-Out);K折交叉验证(K-fold cross validation);自助采样法(Bootstrapping)

8.3 集成优化:集成学习思想(单独构建多个弱分类器组合投票);Bagging集成(随机森林RF);Boosting集成(AdaBoost/GBDT/XGBoost);Stacking集成

 

九、聚类分析建模

9.1 聚类算法:聚类问题与应用场景(客户分群/图像分割/异常检测);K-Means聚类原理(肘部法则/轮廓系数);层次聚类(凝聚式/分裂式/树状图);DBSCAN密度聚类;EM聚类(期望最大化);Canopy聚类

9.2 平台实现:Spark MLlib聚类算法实现;航空公司客户价值分析案例

 

十、关联规则与推荐系统

10.1 关联规则挖掘:关联规则基本概念(支持度/置信度/提升度);Apriori算法原理与FP-Growth算法;购物篮分析与商品捆绑策略;中医证型关联规则挖掘案例

10.2 推荐系统:推荐算法原理(Item-based/User-based协同过滤);Spark协同过滤算法实现;交叉销售推荐模型;电子商务智能推荐服务案例

 

十一、时序预测与回归分析

11.1 时序预测:回归预测与时序预测对比;因素分解思想与平稳性检验;移动平均(MA):一次/二次/加权移动平均;指数平滑(ES):一次/二次/三次指数平滑;温特斯季节预测模型(Holt-Winters加法/乘法模型);ARIMA模型(AR(p)/MA(q)/ARMA(p,q))

11.2 回归分析:线性回归(一元/多元);非线性回归;基于SparkR实现回归分析;异常点检测与预测评估

 

十二、综合实战:全流程大数据挖掘项目

12.1 电力窃漏电用户自动识别:背景与挖掘目标;数据抽取与探索;数据清洗与缺失值处理;数据变换;模型构建与分析

12.2 电商产品评论数据情感分析:背景与挖掘目标;数据获取;文本切词;评论数据情感分析

12.3 基于基站定位数据的商圈分析:挖掘背景与目标;分析方法与过程;数据预处理;模型构建与分析

12.4 项目总结与报告撰写:数据挖掘项目文档规范;面向业务人员的成果汇报技巧;模型落地与监控机制;项目复盘与经验总结。




如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>