
|
课程培训
|
大数据建模与挖掘培训课程6
大数据建模与挖掘培训课程大纲
培训对象:
培训目标:
培训内容介绍:
一、数据建模概述与方法论 1.1 数据建模概念:数据建模解决的核心问题;为什么要数据建模;什么是逻辑数据模型;模型设计的完整流程。 1.2 预测建模六步法:选择模型(基于业务选择恰当的数据模型);特征工程(选择对目标变量有显著影响的属性);训练模型(采用合适算法寻找到最优参数);评估模型(判断模型是否可用);优化模型(评估结果不理想时的优化策略);应用模型(评估通过后应用于业务场景)。 1.3 数据挖掘核心任务:数据挖掘的五大核心任务(分类/聚类/回归/关联规则/时序预测);定量预测模型(回归预测、时序预测);定性预测模型(逻辑回归、决策树、神经网络、支持向量机等)。
二、大数据平台分析与挖掘工具 2.1 平台架构:业界主流基于Hadoop和Spark的大数据分析挖掘解决方案;Hadoop生态体系与数据仓库工具Hive、Tez、Kylin、Presto;Spark实时数据仓库工具Spark SQL。 2.2 挖掘工具:Spark机器学习与数据挖掘工具MLlib和SparkR;R语言介绍与常用分析库;Python数据挖掘生态(NumPy/Pandas/Matplotlib/Scikit-learn);大数据分析挖掘项目的实施步骤。
三、数据集成与预处理技术 3.1 数据集成:多源异构数据采集(日志/数据库/API);日志数据解析与导入导出;从原始数据集中抽取、集成数据,整理形成规范的数据仓库。 3.2 数据预处理:数据清洗(缺失值处理/异常值检测与处理/噪声平滑);数据变换(标准化/归一化/离散化);数据规约与特征提取。
四、探索性数据分析与特征工程 4.1 探索性数据分析:数据探索的目标与流程;单变量数据探索(分布/集中趋势/离散程度);数据关联性分析(相关性矩阵/交叉分析);数据相似性度量。 4.2 特征工程:特征工程构建与选择;特征选择方法(过滤式/包裹式/嵌入式);特征提取(PCA主成分分析/因子分析);IV值筛选(评分卡使用);基于信息增益判断(决策树使用)。
五、Hive数据仓库集群的多维分析建模 5.1 Hive架构:基于Hadoop的大型分布式数据仓库在行业中的应用案例;Hive数据仓库集群的体系结构与核心技术剖析;Hive Server工作原理与机制。 5.2 多维分析:Hive SQL剖析与应用实践;Hive数据仓库表与表分区、表操作、数据导入导出;Hive数据仓库报表设计;将原始日志数据集加载至Hadoop+Hive集群。
六、分类预测模型(上)——逻辑回归与决策树 6.1 逻辑回归:逻辑回归的适用场景;逻辑回归的模型原理(Sigmoid函数/最大似然估计);二项与多项逻辑回归;逻辑回归系数解读(优势比);SAS/EM逻辑回归节点配置。 6.2 决策树模型:决策树算法(C5.0/CHAID/CART/QUEST);构建决策树的三个关键问题(如何选择最佳属性/如何分裂变量/修剪决策树);决策树在客户流失预警、风险识别中的应用;Spark决策树算法实现。
七、分类预测模型(下)——神经网络与支持向量机 7.1 神经网络模型:人工神经网络基本原理;神经网络的结构与分类几何意义;BP反向传播网络(MLP);径向基网络(RBF);神经网络在信用卡欺诈检测中的应用。 7.2 支持向量机:SVM基本原理(最大边界超平面);线性可分与线性不可分问题;核函数技巧(线性核/多项式核/径向基核);维灾难与核函数;Spark SVM程序设计。 7.3 其他分类算法:朴素贝叶斯分类器(贝叶斯原理/条件概率计算/拉普拉斯修正);K-近邻(KNN)算法;判别分析(DA)。
八、模型评估与集成优化 8.1 模型评估指标:两大矩阵(混淆矩阵、代价矩阵);六大指标(准确率/召回率/精确率/F1值/Lift值/特异性);三条曲线(ROC曲线与AUC、PR曲线与BEP、KS曲线与KS值)。 8.2 模型验证方法:留出法(Hold-Out);K折交叉验证(K-fold cross validation);自助采样法(Bootstrapping)。 8.3 集成优化:集成学习思想(单独构建多个弱分类器组合投票);Bagging集成(随机森林RF);Boosting集成(AdaBoost/GBDT/XGBoost);Stacking集成。
九、聚类分析建模 9.1 聚类算法:聚类问题与应用场景(客户分群/图像分割/异常检测);K-Means聚类原理(肘部法则/轮廓系数);层次聚类(凝聚式/分裂式/树状图);DBSCAN密度聚类;EM聚类(期望最大化);Canopy聚类。 9.2 平台实现:Spark MLlib聚类算法实现;航空公司客户价值分析案例。
十、关联规则与推荐系统 10.1 关联规则挖掘:关联规则基本概念(支持度/置信度/提升度);Apriori算法原理与FP-Growth算法;购物篮分析与商品捆绑策略;中医证型关联规则挖掘案例。 10.2 推荐系统:推荐算法原理(Item-based/User-based协同过滤);Spark协同过滤算法实现;交叉销售推荐模型;电子商务智能推荐服务案例。
十一、时序预测与回归分析 11.1 时序预测:回归预测与时序预测对比;因素分解思想与平稳性检验;移动平均(MA):一次/二次/加权移动平均;指数平滑(ES):一次/二次/三次指数平滑;温特斯季节预测模型(Holt-Winters加法/乘法模型);ARIMA模型(AR(p)/MA(q)/ARMA(p,q))。 11.2 回归分析:线性回归(一元/多元);非线性回归;基于SparkR实现回归分析;异常点检测与预测评估。
十二、综合实战:全流程大数据挖掘项目 12.1 电力窃漏电用户自动识别:背景与挖掘目标;数据抽取与探索;数据清洗与缺失值处理;数据变换;模型构建与分析。 12.2 电商产品评论数据情感分析:背景与挖掘目标;数据获取;文本切词;评论数据情感分析。 12.3 基于基站定位数据的商圈分析:挖掘背景与目标;分析方法与过程;数据预处理;模型构建与分析。 12.4 项目总结与报告撰写:数据挖掘项目文档规范;面向业务人员的成果汇报技巧;模型落地与监控机制;项目复盘与经验总结。 如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训 除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916 技术服务需求表点击在线申请 服务特点: 海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。 专家力量: 中国科学院软件研究所,计算研究所高级研究人员 oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家 中科信软培训中心,资深专家或讲师 大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富 多年实际项目经历,大型项目实战案例,热情,乐于技术分享 针对客户实际需求,案例教学,互动式沟通,学有所获 |
|