课程培训
大数据建模与分析挖掘应用培训与咨询

大数据建模与分析挖掘应用培训与咨询

培训目标

1.本课程让学员充分掌握大数据平台技术架构、大数据分析的基本理论、机器学习的常用算法、国内外主流的大数据分析与BI商业智能分析解决方案、以及大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用案例。

2.本课程强调主流的大数据分析挖掘算法技术的应用和分析平台的实施,让学员掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实际应用,并用结合实际的生产系统案例进行教学,掌握基于Hadoop大数据平台的数据挖掘和数据仓库分布式系统平台应用,以及商业和开源的数据分析产品加上Hadoop平台形成大数据分析平台的应用剖析。

3.让学员掌握常见的机器学习算法,深入讲解业界成熟的大数据分析挖掘与BI平台的实践应用,并以客户分析系统、日志分析和电商推荐系统为案例,串联常用的数据挖掘技术进行应用教学。

培训内容安排如下:

内容提要

授课详细内容

业界主流的数据仓库工具和大数据分析挖掘工具

1. 业界主流的基于Hadoop和Spark的大数据分析挖掘项目解决方案

2. 业界数据仓库与数据分析挖掘平台软件工具

3. Hadoop数据仓库工具Hive

4. Spark实时数据仓库工具SparkSQL

5. Hadoop数据分析挖掘工具Mahout

6. Spark机器学习与数据分析挖掘工具MLlib

7. 大数据分析挖掘项目的实施步骤

大数据分析挖掘项目的数据集成操作训练

1. 日志数据解析和导入导出到数据仓库的操作训练

2. 从原始搜索数据集中抽取、集成数据,整理后形成规范的数据仓库

3. 数据分析挖掘模块从大型的集中式数据仓库中访问数据,一个数据仓库面向一个主题,构建两个数据仓库

4. 同一个数据仓库中的事实表数据,可以给多个不同类型的分析挖掘任务调用

5. 去除噪声

基于Hadoop的大型数据仓库管理平台—HIVE数据仓库集群的多维分析建模应用实践

6. 基于Hadoop的大型分布式数据仓库在行业中的数据仓库应用案例

7. Hive数据仓库集群的平台体系结构、核心技术剖析

8. Hive Server的工作原理、机制与应用

9. Hive数据仓库集群的安装部署与配置优化

10. Hive应用开发技巧

11. Hive SQL剖析与应用实践

12. Hive数据仓库表与表分区、表操作、数据导入导出、客户端操作技巧

13. Hive数据仓库报表设计

14. 将原始的日志数据集,经过整理后,加载至Hadoop + Hive数据仓库集群中,用于共享访问

Spark大数据分析挖掘平台实践操作训练

15. Spark大数据分析挖掘平台的部署配置

16. Spark数据分析库MLlib的开发部署

17. Spark数据分析挖掘示例操作,从Hive表中读取数据并在分布式内存中运行

聚类分析建模与挖掘算法的实现原理和技术应用

18. 聚类分析建模与算法原理及其在Spark MLlib中的实现与应用,包括:

a) Canopy聚类(canopy clustering)

b) K均值算法(K-means clustering)

c) 模糊K均值(Fuzzy K-means clustering)

d) EM聚类,即期望最大化聚类(Expectation Maximization)

e) 以上算法在Spark MLib中的实现原理和实际场景中的应用案例。

19. Spark聚类分析算法程序示例

分类分析建模与挖掘算法的实现原理和技术应用 

20. 分类分析建模与算法原理及其在Spark MLlib中的实现与应用, 包括:

f) Spark决策树算法实现

g) 逻辑回归算法(logistics regression)

h) 贝叶斯算法(Bayesian与Cbeyes)

i) 支持向量机(Support vector machine)

j) 以上算法在Spark MLlib中的实现原理和实际场景中的应用案例。

21. Spark客户资料分析与给用户贴标签的程序示例

22. Spark实现给商品贴标签的程序示例

23. Spark实现用户行为的自动标签和深度技术

关联分析建模与挖掘算法的实现原理和技术应用 

24. 预测、推荐分析建模与算法原理及其在Spark MLlib中的实现与应用,包括:

k) Spark频繁模式挖掘算法(parallel FP Growth Algorithm)应用

l) Spark关联规则挖掘(Apriori)算法及其应用

m) 以上算法在Spark MLib中的实现原理和实际场景中的应用案例。

25. Spark关联分析程序示例

推荐分析挖掘模型与算法技术应用

26. 推荐算法原理及其在Spark MLlib中的实现与应用,包括:

a) Spark协同过滤算法程序示例

b) Item-based协同过滤与推荐

c) User-based协同过滤与推荐

d) 交叉销售推荐模型及其实现

回归分析模型与预测算法

27. 利用线性回归(多元回归)实现访问量预测

28. 利用非线性回归预测成交量和访问量的关系

29. 基于R+Spark实现回归分析模型及其应用操作

30. Spark回归程序实现异常点检测的程序示例

图关系建模与分析挖掘及其链接分析和社交分析操作

31. 利用Spark GraphX实现网页链接分析,计算网页重要性排名

32. 实现信息传播的社交关系传递分析,互联网用户的行为关系分析任务的操作训练

神经网络与深度学习算法模型及其应用实践

33. 神经网络算法Neural Network的实现方法和挖掘模型应用

34. 基于人工神经网络的深度学习的训练过程

a) 传统神经网络的训练方法

b) Deep Learning的训练方法

35. 深度学习的常用模型和方法

a) CNN(Convolutional Neural Network)卷积神经网络

b) RNN(Recurrent Neural Network)循环神经网络模型

c) Restricted Boltzmann Machine(RBM)限制波尔兹曼机

36. 基于Spark的深度学习算法模型库的应用程序示例

项目实践

37. 日志分析系统与日志挖掘项目实践

a) Hadoop,Spark,ELK技术构建日志数据仓库

b) 互联网微博日志分析系统项目

38. 推荐系统项目实践

a) 数据分析与个性化推荐关联分析项目

培训总结

39. 项目方案的课堂讨论,讨论实际业务中的分析需求,剖析各个环节的难点、痛点、瓶颈,启发出解决之道;完成讲师布置的项目案例,巩固学过的大数据分析挖掘处理平台技术知识以及应用技能




如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表下载请点击

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

微信号.jpg

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>