课程培训
Python数据预测建模与模型评估实战培训

 课程目标】

本课程为高级课程《Python数据建模》,主要面向数据部门或科技部门的数据预测建模(假定学员已经完成Python数据分析和可视化的学习)。

本课程主要讲解如何利用Python进行数据建模,建立数学模型,来探索业务的各个要素之间的关系,并实现业务目标拟合(回归)或者区分事物所归属的类别(分类)。

基于真实的业务问题,在数据建模的标准过程指导下,从模型选择到特征工程,从训练模型到算法实现,从模型评估到模型优化,再到模型解读及模型应用,带领大家一步一步实现预测模型。 

通过本课程的学习,达到如下目的:

1、 掌握数据建模的标准流程

2、 学会构建业务导向的分析框架,指导收集有效的数据集

3、 学会可视化及探索性分析,即影响因素分析 

4、 掌握模型质量评估:指标、方法,以及过拟合评估

5、 理解常用数据模型的原理、算法、以及适用场景,学会选择模型

6、 熟练使用sklearn库来实现机器学习模型的构建

7、 其它:学会模型解读、可视化、保存、加载、使用等

 

【授课时间】

2时间(会根据需求和学员水平调整进度)

时间

 

主题

主要内容

第一天

上午

数据建模过程

数据分析框架

建模六个步骤

搭建用户违约分析框架

下午

探索性分析篇

相关分析/相关系数/卡方检验

第二天

上午

客户行为预测

模型质量评估

逻辑回归、决策树、

评估指标、评估方法、过拟合评估

下午

客户行为预测

神经网络、支持向量机

 

【授课对象】

数据部门、科技部门、IT部门专业人士。

要求熟悉Python语言,熟悉Pandas库的基本使用等。

【授课方式】

理论框架 + 落地措施 + 实战训练

课程大纲】

第一部分: 数据建模流程

1、 数据建模基本流程

Ø 商业理解:将业务目标分解细分为数据任务

Ø 数据准备:收集有效数据集,并进行处理和探索

Ø 构建模型:选择合适模型,用数据集来训练模型,确定模型参数

Ø 评估模型:评估模型的质量,判断模型是否可用

Ø 建模优化:如果评估结果不理想,则需要对模型进行优化

Ø 应用模型:如果评估结果满足要求,则可应用模型于业务场景

2、 数据挖掘常用的模型

Ø 回归任务:线性回归、时序预测等

Ø 分类任务:逻辑回归、决策树、神经网络、支持向量机等

Ø 市场细分:聚类、RFM、PCA等

Ø 产品推荐:关联分析、协同过滤等

Ø 产品优化:回归、随机效用等

Ø 产品定价:定价策略/最优定价等

3、 模型评估

Ø 评估指标

Ø 评估方法

Ø 过拟合评估

案例:客户流失预测建模

1) 确定分析维度和关键数据

2) 数据预处理及探索性分析

3) 构建模型并评估模型,确定划分阈值

第二部分: 业务分析模型

1、 数据分析思路来源于业务模型

2、 分析框架来源于业务模型

Ø 商业目标(粗粒度)

Ø 分析维度/关键步骤

Ø 业务问题(细粒度)

Ø 涉及数据/关键指标

3、 常用的业务模型:PEST/5W2H/SWOT/PDCA/AARRR

案例搭建精准营销的分析框架(6R)

Ø 如何寻找目标客户群

Ø 如何匹配合适的产品

Ø 如何确定推荐的最佳时机

Ø 如何判断合理的价格

Ø ……

案例:搭建用户购买行为分析框架(5W2H)

案例:个人贷款违约预测模型

Ø 基于业务目标,细分挖掘任务

Ø 确定分析维度,关键动作

Ø 导出关键数据,关键技术

第三部分: 探索相关分析

问题:如何选择合适的属性来进行建模预测?如何做特征选择/特征降维?

1、 影响因素分析常用方法:相关/方差/卡方

2、 相关分析(衡量变量间的线性相关性)

问题:这两个属性是否会相互影响?影响程度大吗?

Ø 相关分析简介

Ø 相关分析的三个种类

² 简单相关分析

² 偏相关分析

Ø 相关系数的三种计算公式

² Pearson相关系数

² Spearman相关系数

² Kendall相关系数

Ø 相关分析的假设检验

Ø 相关分析的四个基本步骤

演练:体重与腰围的关系

演练:营销费用会影响销售额吗

演练网龄与消费水平的关系

3、 方差分析(衡量类别变量与数据变量的相关性)

问题:哪些才是影响销量的关键因素?主要因素是哪些?次要因素是哪些?

Ø 方差分析的应用场景

Ø 方差分析原理

Ø 方差分析前提:齐性检验

Ø 方差分析的三个种类:单因素/多因素/协方差

Ø 方差分析的四个步骤

Ø 分析结果解读要点

演练终端摆放位置与终端销量有关吗

演练:客户学历对消费水平的影响分析

演练广告形式和价格是影响终端销量的关键因素吗

演练营业员的性别、技能级别对产品销量有影响吗

演练:寻找影响产品销量的关键因素

4、 列联分析/卡方检验(两类别变量的相关性分析)

Ø 卡方检验应用场景

Ø 交叉表与列联表

Ø 计数值与期望值

Ø 卡方检验的原理

Ø 卡方检验的几个计算公式

Ø 列联表分析的适用场景

案例:套餐类型对客户流失的影响分析

案例:学历对业务套餐偏好的影响分析

案例:银行用户违约的影响因素分析

5、 属性重要程度排序/筛选

第四部分: 数据预测模型

1、 机器学习四大基本任务

2、 常用预测模型

Ø 回归模型:LinearRegression/SGDRegression、Ridge/Lasso/ElasticNet

Ø 时序模型:MA/ExpSmoothing/Holt/ARMA/ARIMA…

Ø 分类模型:LogistcRegression/DTC/ANN/SVM

3、 逻辑回归模型

Ø 逻辑回归的种类

Ø 逻辑回归分类的几何含义

Ø 二项逻辑回归及其解读

案例:用户订阅预测与订阅用户画像

Ø 带分类的逻辑回归模型

案例:是否购买预测与商场用户典型特征

Ø 逻辑回归的约束场景及优缺点

4、 决策树

Ø 决策树分类的几何意义

Ø 决策树的特征重要性评估

案例:银行用户违约预测

Ø 构建决策树的算法原理

² 决策树解读与保存

² 特征重要性评估

Ø 决策树的超参优化(预剪枝)

案例:糖尿病预测模型

Ø 多分类决策树

案例:鸢尾花种类预测

Ø 决策树的优缺点

5、 神经网络

Ø 神经网络简介

Ø 神经元的几何含义

Ø 神经网络的算法实现

Ø MLP神经网络

案例:银行用户贷款违约预测

Ø 神经网络的早期停止(隐式和显示)

Ø 神经网络的超参优化

Ø 神经网络的适用场景及优缺点

6、 支持向量机

Ø SVM适用场景

Ø SVM原理(最大边界超平面、支持向量)

Ø 非线性SVM分类

Ø 常用核函数及选择原则

第五部分: 模型质量评估

1、 三个方面评估:指标、方法、过拟合

2、 回归模型评估指标

Ø 三个基本概念:SST、SSR、SSE

Ø 拟合程度评估:

Ø 预测误差指标:MAE/RMSE/MAPE

Ø 信息损失准则指标:AIC/BIC/HQIC

3、 分类模型评估指标

Ø 两大矩阵:混淆矩阵、代价矩阵

Ø 六大指标:

² AccuracyPrecisionRecall

² Specify度量值、lift

Ø 三条曲线:

² ROC曲线和AUC、

² PR曲线和BEP、

² KS曲线和KS值

Ø 多分类指标:

² 宏指标;macro_P, macro_R

² 微指标:micro_P, micro_R

4、 模型评估方法

Ø 留出法(Hold-Out)

Ø 交叉验证法(k-fold cross validation)

Ø 自助采样法(Bootstrapping)

5、 过拟合评估

Ø 过拟合概念

Ø 过拟合产生的原因

Ø 学习曲线

Ø 解决过拟合常用方法:正则项

6、 最优模型选择

Ø 选择原则

Ø 两模型质量差异评估

第六部分: 案例实战

1、 客户流失预测和客户挽留模型

2、 银行欠贷风险预测模型 

结束:课程总结问题答疑





如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>