
|
课程培训
|
机器学习(回归、分类、聚类、时间序列)培训
机器学习(回归、分类、聚类、时间序列)培训课程大纲
培训对象:
培训目标:
培训内容介绍:
一、机器学习概述与数学基础 1.1 机器学习概念与分类:机器学习的定义与发展历程;监督学习(回归/分类)与非监督学习(聚类/降维)的区别;机器学习项目的一般流程(CRISP-DM方法论);四大核心任务的应用场景概述。 1.2 数学基础回顾:线性代数基础(向量/矩阵运算/特征值);概率论基础(随机变量/概率分布/贝叶斯定理);微积分与最优化(导数/梯度下降法);偏差-方差权衡与过拟合概念。
二、Python数据科学工具栈 2.1 开发环境搭建:Anaconda安装与配置;Jupyter Notebook使用;虚拟环境管理。 2.2 数据科学核心库:NumPy数值计算(数组操作/广播机制/聚合计算);Pandas数据处理(Series/DataFrame/数据清洗/分组聚合);Matplotlib/Seaborn数据可视化基础。 2.3 Scikit-learn建模基础:统一建模接口(fit/predict/score);数据集划分(train_test_split);数据预处理工具(StandardScaler/OneHotEncoder);Pipeline构建与使用。
三、回归分析 3.1 回归问题概述:回归任务定义(预测连续值);应用场景(房价预测/销量预测/风险评估);回归与分类的区别。 3.2 线性回归:一元线性回归原理(最小二乘法/梯度下降);多元线性回归;模型评估指标(MSE/RMSE/MAE/R²);模型显著性检验(F检验/t检验)。 3.3 正则化回归:过拟合问题与正则化思想;岭回归(L2正则化);Lasso回归(L1正则化)与特征选择;ElasticNet弹性网络。 3.4 回归模型诊断:残差分析(正态性/同方差性/独立性);共线性诊断(VIF);异常值与强影响点识别(Cook距离)。 3.5 非线性回归:多项式回归;广义加性模型(GAM)简介;回归模型在业务预测中的应用案例。
四、分类算法(上)——逻辑回归与KNN 4.1 分类问题概述:分类任务定义(预测离散类别);应用场景(信用评分/客户流失/欺诈检测);二分类与多分类问题。 4.2 逻辑回归:逻辑回归原理(Sigmoid函数/最大似然估计);二项与多项逻辑回归;逻辑回归系数解读(优势比);逻辑回归在信贷审批中的应用。 4.3 K-近邻(KNN)算法:KNN原理(距离度量/K值选择/决策规则);KD树与Ball树加速;KNN参数调优;KNN适用场景与局限性。 4.4 分类模型评估指标:混淆矩阵与代价矩阵;准确率/精确率/召回率/F1-score;ROC曲线与AUC值;PR曲线适用场景(不平衡数据)。
五、分类算法(中)——决策树与朴素贝叶斯 5.1 决策树算法:决策树原理(树结构/分裂准则);信息增益、基尼系数与增益率;常用决策树算法(ID3/C4.5/CART);决策树剪枝策略(预剪枝/后剪枝);决策树可视化与规则提取。 5.2 朴素贝叶斯:贝叶斯定理基础;朴素贝叶斯条件独立假设;三种朴素贝叶斯模型(高斯/多项式/伯努利);朴素贝叶斯在文本分类中的应用。 5.3 不平衡数据处理:不平衡数据定义与影响;数据层面方法(过采样SMOTE/欠采样);算法层面方法(代价敏感学习/阈值调整);评估指标选择(F1-score/AUC-PR)。
六、分类算法(下)——支持向量机与集成学习 6.1 支持向量机(SVM):SVM基本原理(最大间隔超平面);线性可分与线性不可分问题;核函数技巧(线性核/多项式核/RBF核);软间隔与惩罚参数C;SVM参数调优。 6.2 集成学习思想:集成学习理论基础(弱学习器组合强学习器);Bagging与Boosting对比。 6.3 Bagging与随机森林:Bagging原理(Bootstrap聚合);随机森林算法(特征随机采样);特征重要性分析;随机森林在金融风控中的应用。 6.4 Boosting算法:AdaBoost原理(样本权重调整);梯度提升树(GBDT);XGBoost原理与优势;LightGBM与CatBoost简介。 6.5 模型融合策略:投票法(硬投票/软投票);平均法;堆叠法(Stacking)。
七、聚类分析 7.1 无监督学习概述:无监督学习定义与价值;聚类问题与应用场景(客户分群/图像分割/异常检测)。 7.2 相似性度量:距离度量(欧氏距离/曼哈顿距离/余弦相似度);相似度与相异度概念。 7.3 K-Means聚类:K-Means算法原理与步骤;K值选择(肘部法则/轮廓系数);K-Means++初始化;K-Means优缺点与应用场景。 7.4 层次聚类:层次聚类原理(凝聚式/分裂式);距离度量方法(单链/全链/平均链/Ward);树状图(Dendrogram)解读。 7.5 DBSCAN密度聚类:DBSCAN原理(核心点/边界点/噪音点);参数选择(ε/MinPts);DBSCAN优缺点(识别任意形状聚类/抗噪)。 7.6 聚类评估:外部指标(ARI/AMI/NMI);内部指标(轮廓系数/Calinski-Harabasz指数)。 7.7 降维与可视化:主成分分析(PCA)原理;t-SNE与UMAP高维数据可视化;聚类在客户分群中的应用案例。
八、时间序列分析与预测 8.1 时间序列基础:时间序列定义与成分(趋势/季节/循环/随机);平稳性概念;自相关与偏自相关函数;时间序列可视化与探索。 8.2 时间序列预处理:缺失值处理;重采样(升采样/降采样);时间特征工程(滞后特征/滚动窗口特征);训练集与测试集划分(时间序列交叉验证)。 8.3 经典时序模型:移动平均法(SMA/WMA);指数平滑法(SES/Holt/Holt-Winters);季节性分解。 8.4 ARIMA模型:AR模型(自回归)原理;MA模型(移动平均)原理;ARIMA模型(整合移动平均自回归);模型识别(ACF/PACF定阶);季节性ARIMA(SARIMA)。 8.5 机器学习时序预测:时间序列转换为监督学习问题;特征构造(滞后特征/滚动统计);树模型时序预测(XGBoost/LightGBM);多步预测策略(直接预测/递归预测)。 8.6 深度学习时序预测:RNN/LSTM原理;GRU时序预测;LSTM在销售预测中的应用。 8.7 预测评估:预测误差指标(MAE/MSE/RMSE/MAPE/sMAPE);预测区间与置信区间;模型比较与选择(AIC/BIC)。
九、模型评估、选择与优化 9.1 模型评估方法:留出法(Hold-out);K折交叉验证(K-Fold);分层K折交叉验证(Stratified K-Fold);时间序列交叉验证(Time Series Split)。 9.2 学习曲线与验证曲线:学习曲线解读(欠拟合/过拟合诊断);验证曲线参数调优指导。 9.3 超参数调优:手动调优(经验法);网格搜索(Grid Search)原理与实现;随机搜索(Randomized Search);贝叶斯优化(Bayesian Optimization)简介。 9.4 模型选择准则:偏差-方差权衡;模型复杂度与泛化能力;模型比较与统计检验。
十、综合实战项目 10.1 回归项目:房价预测/销售预测;数据探索→特征工程→线性回归/正则化回归→模型评估与诊断。 10.2 分类项目:银行客户流失预测/信用卡欺诈检测;不平衡数据处理→多模型对比(逻辑回归/决策树/随机森林/XGBoost)→模型评估→业务策略制定。 10.3 聚类项目:客户价值分群(RFM特征构建);K-Means/层次聚类/DBSCAN对比→聚类结果评估→客户画像构建→精准营销策略。 10.4 时间序列项目:销量预测/电力负荷预测;时间序列分解→平稳性检验→ARIMA/机器学习模型对比→预测结果评估。 如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训 除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916 技术服务需求表点击在线申请 服务特点: 海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。 专家力量: 中国科学院软件研究所,计算研究所高级研究人员 oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家 中科信软培训中心,资深专家或讲师 大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富 多年实际项目经历,大型项目实战案例,热情,乐于技术分享 针对客户实际需求,案例教学,互动式沟通,学有所获 |
|