
|
课程培训
|
大数据建模与分析挖掘应用培训课程6
大数据建模与分析挖掘应用培训课程大纲
培训对象:
培训目标:
培训内容介绍: 1. 大数据建模概述与数据挖掘方法论 1.1 大数据建模概述:数据建模解决的核心问题;预测建模六步法(选择模型→特征工程→训练模型→评估模型→优化模型→应用模型)。 1.2 数据挖掘方法论:CRISP-DM标准方法论(业务理解→数据理解→数据准备→建模→评估→部署);数据挖掘的五大核心任务:分类、聚类、回归、关联规则、时序预测;大数据技术栈与数据挖掘的关系。
2. 大数据平台分析与挖掘工具 2.1 平台架构:业界主流基于Hadoop和Spark的大数据分析挖掘解决方案;Hadoop生态体系与数据仓库工具Hive、Tez、Kylin、Presto;Spark实时数据仓库工具Spark SQL。 2.2 挖掘工具:Spark机器学习与数据挖掘工具MLlib和SparkR;R语言与Python在数据挖掘中的应用;大数据分析挖掘项目实施步骤。
3. 数据集成与预处理技术 3.1 数据集成:多源异构数据采集(日志/数据库/API);日志数据解析与导入导出;从原始数据集中抽取、集成数据,整理形成规范的数据仓库。 3.2 预处理技术:数据清洗(缺失值处理/异常值检测与处理/噪声平滑);数据变换(标准化/归一化/离散化);数据规约与特征提取。
4. 探索性数据分析与特征工程 4.1 探索性数据分析:数据探索的目标与流程;单变量数据探索(分布/集中趋势/离散程度);数据关联性分析(相关性矩阵/交叉分析)。 4.2 特征工程:特征工程构建与选择;特征选择方法(过滤式/包裹式/嵌入式);特征提取(PCA/因子分析);IV值筛选(评分卡使用);基于信息增益判断(决策树使用)。
5. Hive数据仓库集群的多维分析建模 5.1 Hive架构:基于Hadoop的分布式数据仓库应用案例;Hive数据仓库集群的体系结构与核心技术;Hive Server工作原理与机制。 5.2 多维分析:Hive SQL剖析与应用实践;Hive数据仓库表与表分区、表操作、数据导入导出;Hive数据仓库报表设计;将原始日志数据集加载至Hadoop+Hive集群。
6. 分类预测模型(上) 6.1 逻辑回归:分类模型概述及其应用场景;逻辑回归(LR):适用场景、模型原理、二项与多项逻辑回归、方程解读。 6.2 决策树:决策树(DT):C5.0/CHAID/CART/QUEST算法、树的生长与剪枝、属性选择与分裂;决策树在客户流失预警、风险识别中的应用。
7. 分类预测模型(下) 7.1 贝叶斯与SVM:朴素贝叶斯分类器(NBN):贝叶斯原理、条件概率计算、拉普拉斯修正;支持向量机(SVM):线性可分与线性不可分、核函数技巧、最大边界超平面。 7.2 神经网络与其他:人工神经网络(ANN):BP反向传播网络(MLP)、径向基网络(RBF);K-近邻(KNN)算法;判别分析(DA)。
8. 模型评估与集成优化 8.1 模型评估:模型评估指标:混淆矩阵、代价矩阵、准确率/召回率/精确率/F1值;三条曲线:ROC曲线与AUC、PR曲线与BEP、KS曲线与KS值;模型评估方法:留出法、K折交叉验证、自助采样法。 8.2 集成优化:集成学习思想:Bagging(随机森林)、Boosting(AdaBoost/GBDT/XGBoost)、Stacking;模型优化策略。
9. 聚类分析建模 9.1 聚类算法:聚类问题与应用场景(客户分群/图像分割/异常检测);K-Means聚类原理(肘部法则/轮廓系数);层次聚类(凝聚式/分裂式/树状图);DBSCAN密度聚类;EM聚类(期望最大化)。 9.2 平台实现:Spark MLlib聚类算法实现;航空公司客户价值分析案例。
10. 关联规则与推荐系统 10.1 关联规则:关联规则基本概念(支持度/置信度/提升度);Apriori算法原理与FP-Growth算法;购物篮分析与商品捆绑策略;中医证型关联规则挖掘案例。 10.2 推荐系统:推荐算法原理:协同过滤(Item-based/User-based);Spark协同过滤算法实现;交叉销售推荐模型;电子商务智能推荐服务案例。
11. 时序预测与回归分析 11.1 时序预测:回归预测与时序预测对比;因素分解思想与平稳性检验;时序预测模型:移动平均(MA)、指数平滑(ES)、温特斯季节预测模型、ARIMA模型。 11.2 回归分析:回归分析:线性回归(一元/多元)、非线性回归;基于SparkR实现回归分析;异常点检测与预测评估。
12. 综合实战:全流程大数据挖掘项目 12.1 项目背景:以电商/金融/电信真实场景为背景,完成完整数据挖掘项目。 12.2 实施流程:业务理解与目标定义(如用户流失预测/信用评分/精准营销)→数据采集与集成(Hive数据仓库)→数据探索与预处理→特征工程与选择→模型构建与对比(分类/聚类/推荐)→模型评估与调优→模型部署与监控→项目总结与报告撰写。 如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训 除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916 技术服务需求表点击在线申请 服务特点: 海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。 专家力量: 中国科学院软件研究所,计算研究所高级研究人员 oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家 中科信软培训中心,资深专家或讲师 大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富 多年实际项目经历,大型项目实战案例,热情,乐于技术分享 针对客户实际需求,案例教学,互动式沟通,学有所获 |
|