
|
课程培训
|
Python数据预测建模与模型评估实战培训
【课程目标】 本课程为高级课程《Python数据建模》,主要面向数据部门或科技部门的数据预测建模(假定学员已经完成Python数据分析和可视化的学习)。 本课程主要讲解如何利用Python进行数据建模,建立数学模型,来探索业务的各个要素之间的关系,并实现业务目标拟合(回归)或者区分事物所归属的类别(分类)。 基于真实的业务问题,在数据建模的标准过程指导下,从模型选择到特征工程,从训练模型到算法实现,从模型评估到模型优化,再到模型解读及模型应用,带领大家一步一步实现预测模型。 通过本课程的学习,达到如下目的: 1、 掌握数据建模的标准流程 2、 学会构建业务导向的分析框架,指导收集有效的数据集 3、 学会可视化及探索性分析,即影响因素分析 4、 掌握模型质量评估:指标、方法,以及过拟合评估 5、 理解常用数据模型的原理、算法、以及适用场景,学会选择模型 6、 熟练使用sklearn库来实现机器学习模型的构建 7、 其它:学会模型解读、可视化、保存、加载、使用等
【授课时间】 2天时间(会根据需求和学员水平调整进度)
【授课对象】 数据部门、科技部门、IT部门专业人士。 要求熟悉Python语言,熟悉Pandas库的基本使用等。 【授课方式】 理论框架 + 落地措施 + 实战训练 【课程大纲】 第一部分: 数据建模流程 1、 数据建模基本流程 Ø 商业理解:将业务目标分解细分为数据任务 Ø 数据准备:收集有效数据集,并进行处理和探索 Ø 构建模型:选择合适模型,用数据集来训练模型,确定模型参数 Ø 评估模型:评估模型的质量,判断模型是否可用 Ø 建模优化:如果评估结果不理想,则需要对模型进行优化 Ø 应用模型:如果评估结果满足要求,则可应用模型于业务场景 2、 数据挖掘常用的模型 Ø 回归任务:线性回归、时序预测等 Ø 分类任务:逻辑回归、决策树、神经网络、支持向量机等 Ø 市场细分:聚类、RFM、PCA等 Ø 产品推荐:关联分析、协同过滤等 Ø 产品优化:回归、随机效用等 Ø 产品定价:定价策略/最优定价等 3、 模型评估 Ø 评估指标 Ø 评估方法 Ø 过拟合评估 案例:客户流失预测建模 1) 确定分析维度和关键数据 2) 数据预处理及探索性分析 3) 构建模型并评估模型,确定划分阈值 第二部分: 业务分析模型 1、 数据分析思路来源于业务模型 2、 分析框架来源于业务模型 Ø 商业目标(粗粒度) Ø 分析维度/关键步骤 Ø 业务问题(细粒度) Ø 涉及数据/关键指标 3、 常用的业务模型:PEST/5W2H/SWOT/PDCA/AARRR… 案例:搭建精准营销的分析框架(6R) Ø 如何寻找目标客户群 Ø 如何匹配合适的产品 Ø 如何确定推荐的最佳时机 Ø 如何判断合理的价格 Ø …… 案例:搭建用户购买行为分析框架(5W2H) 案例:个人贷款违约预测模型 Ø 基于业务目标,细分挖掘任务 Ø 确定分析维度,关键动作 Ø 导出关键数据,关键技术 第三部分: 探索相关分析 问题:如何选择合适的属性来进行建模预测?如何做特征选择/特征降维? 1、 影响因素分析常用方法:相关/方差/卡方 2、 相关分析(衡量变量间的线性相关性) 问题:这两个属性是否会相互影响?影响程度大吗? Ø 相关分析简介 Ø 相关分析的三个种类 ² 简单相关分析 ² 偏相关分析 Ø 相关系数的三种计算公式 ² Pearson相关系数 ² Spearman相关系数 ² Kendall相关系数 Ø 相关分析的假设检验 Ø 相关分析的四个基本步骤 演练:体重与腰围的关系 演练:营销费用会影响销售额吗 演练:网龄与消费水平的关系 3、 方差分析(衡量类别变量与数据变量的相关性) 问题:哪些才是影响销量的关键因素?主要因素是哪些?次要因素是哪些? Ø 方差分析的应用场景 Ø 方差分析原理 Ø 方差分析前提:齐性检验 Ø 方差分析的三个种类:单因素/多因素/协方差 Ø 方差分析的四个步骤 Ø 分析结果解读要点 演练:终端摆放位置与终端销量有关吗 演练:客户学历对消费水平的影响分析 演练:广告形式和价格是影响终端销量的关键因素吗 演练:营业员的性别、技能级别对产品销量有影响吗 演练:寻找影响产品销量的关键因素 4、 列联分析/卡方检验(两类别变量的相关性分析) Ø 卡方检验应用场景 Ø 交叉表与列联表 Ø 计数值与期望值 Ø 卡方检验的原理 Ø 卡方检验的几个计算公式 Ø 列联表分析的适用场景 案例:套餐类型对客户流失的影响分析 案例:学历对业务套餐偏好的影响分析 案例:银行用户违约的影响因素分析 5、 属性重要程度排序/筛选 第四部分: 数据预测模型 1、 机器学习四大基本任务 2、 常用预测模型 Ø 回归模型:LinearRegression/SGDRegression、Ridge/Lasso/ElasticNet Ø 时序模型:MA/ExpSmoothing/Holt/ARMA/ARIMA… Ø 分类模型:LogistcRegression/DTC/ANN/SVM 3、 逻辑回归模型 Ø 逻辑回归的种类 Ø 逻辑回归分类的几何含义 Ø 二项逻辑回归及其解读 案例:用户订阅预测与订阅用户画像 Ø 带分类的逻辑回归模型 案例:是否购买预测与商场用户典型特征 Ø 逻辑回归的约束场景及优缺点 4、 决策树 Ø 决策树分类的几何意义 Ø 决策树的特征重要性评估 案例:银行用户违约预测 Ø 构建决策树的算法原理 ² 决策树解读与保存 ² 特征重要性评估 Ø 决策树的超参优化(预剪枝) 案例:糖尿病预测模型 Ø 多分类决策树 案例:鸢尾花种类预测 Ø 决策树的优缺点 5、 神经网络 Ø 神经网络简介 Ø 神经元的几何含义 Ø 神经网络的算法实现 Ø MLP神经网络 案例:银行用户贷款违约预测 Ø 神经网络的早期停止(隐式和显示) Ø 神经网络的超参优化 Ø 神经网络的适用场景及优缺点 6、 支持向量机 Ø SVM适用场景 Ø SVM原理(最大边界超平面、支持向量) Ø 非线性SVM分类 Ø 常用核函数及选择原则 第五部分: 模型质量评估 1、 三个方面评估:指标、方法、过拟合 2、 回归模型评估指标 Ø 三个基本概念:SST、SSR、SSE Ø 拟合程度评估: Ø 预测误差指标:MAE/RMSE/MAPE Ø 信息损失准则指标:AIC/BIC/HQIC 3、 分类模型评估指标 Ø 两大矩阵:混淆矩阵、代价矩阵 Ø 六大指标: ² Accuracy、Precision、Recall、 ² Specify、度量值、lift Ø 三条曲线: ² ROC曲线和AUC、 ² PR曲线和BEP、 ² KS曲线和KS值 Ø 多分类指标: ² 宏指标;macro_P, macro_R ² 微指标:micro_P, micro_R 4、 模型评估方法 Ø 留出法(Hold-Out) Ø 交叉验证法(k-fold cross validation) Ø 自助采样法(Bootstrapping) 5、 过拟合评估 Ø 过拟合概念 Ø 过拟合产生的原因 Ø 学习曲线 Ø 解决过拟合常用方法:正则项 6、 最优模型选择 Ø 选择原则 Ø 两模型质量差异评估 第六部分: 案例实战 1、 客户流失预测和客户挽留模型 2、 银行欠贷风险预测模型 结束:课程总结与问题答疑。 如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训 除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916 技术服务需求表点击在线申请 服务特点: 海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。 专家力量: 中国科学院软件研究所,计算研究所高级研究人员 oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家 中科信软培训中心,资深专家或讲师 大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富 多年实际项目经历,大型项目实战案例,热情,乐于技术分享 针对客户实际需求,案例教学,互动式沟通,学有所获 |
|