(1)数据AI概述与数学基础:了解人工智能与数据科学的关系,掌握AI算法分类体系(监督学习、无监督学习、强化学习)及其应用场景。回顾数据AI所需的数学基础,包括线性代数(向量、矩阵、特征分解)、概率论(条件概率、贝叶斯定理、分布估计)、数理统计(参数估计、假设检验)和最优化方法(梯度下降、牛顿法)的核心概念。
(2)数据预处理与探索性分析:掌握数据清洗的完整流程,包括缺失值处理(删除、均值/中位数填充、插值法)、异常值检测(3σ原则、箱线图、IQR准则)和数据去重。学习数据变换技术(标准化、归一化、离散化、对数变换)的适用场景。掌握探索性数据分析(EDA)方法,使用可视化工具(Matplotlib、Seaborn)分析数据分布、相关性和统计特征。
(3)特征工程与维度约简:深入理解特征工程的核心价值,掌握特征构建方法(组合特征、多项式特征、领域特征)。学习特征选择技术(过滤式、包裹式、嵌入式)的原理与实现,包括方差选择、卡方检验、互信息、递归特征消除(RFE)、基于模型的特征选择。掌握维度约简技术,包括主成分分析(PCA)、线性判别分析(LDA)、t-SNE和UMAP的原理与应用。
(4)线性回归与逻辑回归:深入理解线性回归的数学原理(最小二乘法、梯度下降),掌握多元线性回归、多项式回归的实现。学习正则化技术(岭回归、Lasso回归、弹性网络)处理过拟合和特征选择。掌握逻辑回归的原理(Sigmoid函数、对数损失、决策边界)及其在多分类中的扩展(Softmax回归)。实战实现房价预测和信用评分分类模型。
(5)决策树与集成学习:深入理解决策树的原理(信息增益、基尼系数、剪枝策略),掌握ID3、C4.5、CART算法的区别与适用场景。学习集成学习的两大范式:Bagging(随机森林)和Boosting(AdaBoost、梯度提升决策树GBDT、XGBoost、LightGBM、CatBoost)。掌握随机森林的特征重要性评估和XGBoost/LightGBM的超参数调优技巧。实战实现用户流失预测和金融风控模型。
(6)支持向量机与贝叶斯算法:理解支持向量机(SVM)的核心思想(最大间隔、支持向量、核技巧),掌握线性SVM和非线性SVM(多项式核、RBF核、Sigmoid核)的应用场景。学习SVM的多分类扩展(一对多、一对一)。掌握朴素贝叶斯的原理(贝叶斯定理、条件独立性假设),学习高斯朴素贝叶斯、多项式朴素贝叶斯、伯努利朴素贝叶斯在不同数据类型上的应用。实战实现文本分类和图像识别基础模型。
(7)聚类算法与无监督学习:深入理解K-Means聚类的原理(K值选择、距离计算、收敛条件)和局限性。学习层次聚类(凝聚式、分裂式)和DBSCAN密度聚类的工作原理。掌握聚类评估方法(轮廓系数、Calinski-Harabasz指数、Davies-Bouldin指数)。了解高斯混合模型(GMM)和期望最大化(EM)算法的原理。实战实现客户分群和图像分割应用。
(8)时间序列分析与预测:理解时间序列数据的特性(趋势、季节性、周期性、随机性)。掌握经典时间序列模型:移动平均(MA)、自回归(AR)、自回归移动平均(ARMA)、差分自回归移动平均(ARIMA)、季节性ARIMA(SARIMA)。学习指数平滑方法(简单指数平滑、Holt线性趋势、Holt-Winters季节性)。了解Prophet等现代时间序列预测工具的原理与应用。实战实现销量预测和流量预测。
(9)神经网络基础与深度学习入门:理解神经元模型、激活函数(Sigmoid、Tanh、ReLU、Leaky ReLU、Softmax)的作用与选择。掌握多层感知器(MLP)的网络结构、前向传播与反向传播算法。学习使用TensorFlow/Keras构建神经网络模型,掌握损失函数(MSE、交叉熵)、优化器(SGD、Adam、RMSprop)的配置方法。通过手写数字识别(MNIST)案例实践完整的模型构建、编译、训练和评估流程。
(10)模型评估与超参数调优:系统学习模型评估的各种方法,包括留出法、交叉验证(K折、留一法)和自助法。掌握分类模型的评估指标体系(准确率、精确率、召回率、F1分数、ROC曲线、AUC、混淆矩阵)。学习回归模型的评估指标(MSE、RMSE、MAE、R²、调整R²)。掌握超参数调优技术:网格搜索、随机搜索、贝叶斯优化。理解学习曲线和验证曲线的绘制与分析方法。
(11)模型解释性与可解释AI:理解模型解释性的重要性和应用场景。掌握全局解释与局部解释的区别,学习特征重要性分析、部分依赖图(PDP)、个体条件期望图(ICE)。掌握SHAP(SHapley Additive exPlanations)值的原理与应用,学习LIME(Local Interpretable Model-agnostic Explanations)的局部解释方法。实战实现对复杂模型(XGBoost、随机森林)的解释性分析。
(12)综合项目实战:端到端数据AI应用开发:结合所学知识,完成一个完整的数据AI项目(如电商用户行为分析、金融信用评分系统、工业预测性维护、智慧城市流量预测等)。涵盖业务理解、数据采集与预处理、探索性分析、特征工程、模型选型与训练、超参数调优、模型解释、结果评估和部署上线的全流程,形成规范的数据AI项目报告。