Python数据预测建模与模型评估实战培训-中科信软培训中心

时间		主题	主要内容
第一天	上午	数据建模过程数据分析框架	建模六个步骤搭建用户违约分析框架
第一天	下午	探索性分析篇	相关分析/相关系数/卡方检验
第二天	上午	客户行为预测模型质量评估	逻辑回归、决策树、评估指标、评估方法、过拟合评估
第二天	下午	客户行为预测	神经网络、支持向量机

【授课对象】

数据部门、科技部门、IT部门专业人士。

要求熟悉Python语言，熟悉Pandas库的基本使用等。

【授课方式】

理论框架 + 落地措施 + 实战训练

【课程大纲】

第一部分： 数据建模流程

1、数据建模基本流程

Ø 商业理解：将业务目标分解细分为数据任务

Ø 数据准备：收集有效数据集，并进行处理和探索

Ø 构建模型：选择合适模型，用数据集来训练模型，确定模型参数

Ø 评估模型：评估模型的质量，判断模型是否可用

Ø 建模优化：如果评估结果不理想，则需要对模型进行优化

Ø 应用模型：如果评估结果满足要求，则可应用模型于业务场景

2、数据挖掘常用的模型

Ø 回归任务：线性回归、时序预测等

Ø 分类任务：逻辑回归、决策树、神经网络、支持向量机等

Ø 市场细分：聚类、RFM、PCA等

Ø 产品推荐：关联分析、协同过滤等

Ø 产品优化：回归、随机效用等

Ø 产品定价：定价策略/最优定价等

3、模型评估

Ø 评估指标

Ø 评估方法

Ø 过拟合评估

案例：客户流失预测建模

1）确定分析维度和关键数据

2）数据预处理及探索性分析

3）构建模型并评估模型，确定划分阈值

第二部分： 业务分析模型

1、数据分析思路来源于业务模型

2、分析框架来源于业务模型

Ø 商业目标（粗粒度）

Ø 分析维度/关键步骤

Ø 业务问题（细粒度）

Ø 涉及数据/关键指标

3、常用的业务模型：PEST/5W2H/SWOT/PDCA/AARRR…

案例：搭建精准营销的分析框架(6R)

Ø 如何寻找目标客户群

Ø 如何匹配合适的产品

Ø 如何确定推荐的最佳时机

Ø 如何判断合理的价格

Ø ……

案例：搭建用户购买行为分析框架(5W2H)

案例：个人贷款违约预测模型

Ø 基于业务目标，细分挖掘任务

Ø 确定分析维度，关键动作

Ø 导出关键数据，关键技术

第三部分： 探索相关分析

问题：如何选择合适的属性来进行建模预测？如何做特征选择/特征降维？

1、影响因素分析常用方法：相关/方差/卡方

2、相关分析（衡量变量间的线性相关性）

问题：这两个属性是否会相互影响？影响程度大吗？

Ø 相关分析简介

Ø 相关分析的三个种类

² 简单相关分析

² 偏相关分析

Ø 相关系数的三种计算公式

² Pearson相关系数

² Spearman相关系数

² Kendall相关系数

Ø 相关分析的假设检验

Ø 相关分析的四个基本步骤

演练：体重与腰围的关系

演练：营销费用会影响销售额吗

演练：网龄与消费水平的关系

3、方差分析(衡量类别变量与数据变量的相关性)

问题：哪些才是影响销量的关键因素？主要因素是哪些？次要因素是哪些？

Ø 方差分析的应用场景

Ø 方差分析原理

Ø 方差分析前提：齐性检验

Ø 方差分析的三个种类：单因素/多因素/协方差

Ø 方差分析的四个步骤

Ø 分析结果解读要点

演练：终端摆放位置与终端销量有关吗

演练：客户学历对消费水平的影响分析

演练：广告形式和价格是影响终端销量的关键因素吗

演练：营业员的性别、技能级别对产品销量有影响吗

演练：寻找影响产品销量的关键因素

4、列联分析/卡方检验（两类别变量的相关性分析）

Ø 卡方检验应用场景

Ø 交叉表与列联表

Ø 计数值与期望值

Ø 卡方检验的原理

Ø 卡方检验的几个计算公式

Ø 列联表分析的适用场景

案例：套餐类型对客户流失的影响分析

案例：学历对业务套餐偏好的影响分析

案例：银行用户违约的影响因素分析

5、属性重要程度排序/筛选

第四部分： 数据预测模型

1、机器学习四大基本任务

2、常用预测模型

Ø 回归模型：LinearRegression/SGDRegression、Ridge/Lasso/ElasticNet

Ø 时序模型：MA/ExpSmoothing/Holt/ARMA/ARIMA…

Ø 分类模型：LogistcRegression/DTC/ANN/SVM

3、逻辑回归模型

Ø 逻辑回归的种类

Ø 逻辑回归分类的几何含义

Ø 二项逻辑回归及其解读

案例：用户订阅预测与订阅用户画像

Ø 带分类的逻辑回归模型

案例：是否购买预测与商场用户典型特征

Ø 逻辑回归的约束场景及优缺点

4、决策树

Ø 决策树分类的几何意义

Ø 决策树的特征重要性评估

案例：银行用户违约预测

Ø 构建决策树的算法原理

² 决策树解读与保存

² 特征重要性评估

Ø 决策树的超参优化（预剪枝）

案例：糖尿病预测模型

Ø 多分类决策树

案例：鸢尾花种类预测

Ø 决策树的优缺点

5、神经网络

Ø 神经网络简介

Ø 神经元的几何含义

Ø 神经网络的算法实现

Ø MLP神经网络

案例：银行用户贷款违约预测

Ø 神经网络的早期停止（隐式和显示）

Ø 神经网络的超参优化

Ø 神经网络的适用场景及优缺点

6、支持向量机

Ø SVM适用场景

Ø SVM原理（最大边界超平面、支持向量）

Ø 非线性SVM分类

Ø 常用核函数及选择原则

第五部分： 模型质量评估

1、三个方面评估：指标、方法、过拟合

2、回归模型评估指标

Ø 三个基本概念：SST、SSR、SSE

Ø 拟合程度评估：

Ø 预测误差指标：MAE/RMSE/MAPE

Ø 信息损失准则指标：AIC/BIC/HQIC

3、分类模型评估指标

Ø 两大矩阵：混淆矩阵、代价矩阵

Ø 六大指标：

² Accuracy、Precision、Recall、

² Specify、度量值、lift

Ø 三条曲线：

² ROC曲线和AUC、

² PR曲线和BEP、

² KS曲线和KS值

Ø 多分类指标：

² 宏指标；macro_P, macro_R

² 微指标：micro_P, micro_R

4、模型评估方法

Ø 留出法（Hold-Out）

Ø 交叉验证法（k-fold cross validation）

Ø 自助采样法（Bootstrapping）

5、过拟合评估

Ø 过拟合概念

Ø 过拟合产生的原因

Ø 学习曲线

Ø 解决过拟合常用方法：正则项

6、最优模型选择

Ø 选择原则

Ø 两模型质量差异评估

第六部分： 案例实战

1、客户流失预测和客户挽留模型

2、银行欠贷风险预测模型

结束：课程总结与问题答疑。

如果您想学习本课程，请预约报名
如果没找到合适的课程或有特殊培训需求，请订制培训
除培训外，同时提供相关技术咨询与技术支持服务，有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点：
海量专家资源，精准匹配相关行业，相关项目专家，针对实际需求，顾问式咨询，互动式授课，案例教学，小班授课，实际项目演示，快捷高效，省时省力省钱。

专家力量：
中国科学院软件研究所，计算研究所高级研究人员
oracle,微软，vmware，MSC,Ansys，candence,Altium,达索等大型公司高级工程师，项目经理，技术支持专家
中科信软培训中心，资深专家或讲师
大多名牌大学，硕士以上学历，相关技术专业，理论素养丰富
多年实际项目经历，大型项目实战案例，热情，乐于技术分享
针对客户实际需求，案例教学，互动式沟通，学有所获

报名表下载

点击进入报名表

联系我们更多>>

咨询电话：010-62883247

4007991916

咨询邮箱：soft@info-soft.cn

微信咨询

随时听讲课

聚焦技术实践