课程培训
R语言与Hadoop环境下大数据分析与挖掘培训

课程大纲

培训模块 内容
大数据概述 1.大数据基本概念、技术梗概、技术沿革,以及大数据技术是如何改变人工智能技术、语音识别技术、图像识别/视频理解、自然语言处理技术等,以及大数据技术在政府、金融、石油、教育、交通、医疗卫生等行业的成功案例;
2.Hadoop大数据平台的生态系统组件、平台架构以及工作原理;分布式文件系统HDFS、并行处理系统Hadoop MapReduce的系统架构、核心功能模块、工作原理以及应用开发;
3.大数据的结构化数据模型、半结构化模型和非结构化数据的存储模型,逻辑模型,以及分析建模工具的常用方法。
数据挖掘及Mahout 1.十大常用的并行数据挖掘算法、原理、应用场景,以及技术实战;
2.并行数据挖掘平台Mahout的技术架构、核心组件的工作原理以及技术;
3.Mahout应用开发技术;
4.Mahout项目实战。
R语言精要 本着循序渐进而又覆盖R语言重要而有用的基本内容原则,本讲从R语言入门开始,以前期的数据处理为核心,以实际案例为载体,内容包括R语言的向量、数据框、矩阵运算、缺失值和零值的处理、特别注重用R语言构造函数编程解决实际问题,详细介绍强大的数据清洗整理plyr、zoo、car等常用包和强大的作图ggplot2包,为使用R语言进行数据挖掘打下扎实的工具基础。
主要案例:
案例1:如何用R语言plyr等包合并、排序、分析数据并编制香农-威纳指数;
案例2:如何用R语言编程同时实现几十个高难度数据分析可视化图片的jpeg格式输出;
案例3:如何使用R语言进行分层或者整群抽样构建训练集与测试集;
案例4:使用ggplot2画出各种复杂的图形。
Logistic回归与
商业大数据建模
Logistic回归是商业建模的常用重要数据挖掘方法,本讲要讲清楚Logistic回归的建模原理、与多元线性模型的区别、R语言实现过程及回归诊断注意事项、预测方法和结果解释,让学员彻底地掌握Logistic回归解决问题的R语言方法。
主要案例:
案例1:利用Logistic回归帮助商业银行完成对客户提前还贷款情况的预测;
案例2:利用Logistic回归帮助医生对病人选择最佳治疗方案;
案例3:利用Logistic回归帮助厂家分析顾客做出购买决策的重要因素;
案例4:利用Logistic回归帮助寿险公司进行目标客户精准电话营销;
案例5:利用Logistic回归帮助商业银行完成对客户的信用评分;
案例6:利用Logistic回归帮助公司分析客户流失的原因并做好预测。
关联规则和
R语言实现
关联规则(著名的“啤酒和尿布”)是数据挖掘的基础和核心技术之一,本讲将着重围绕经典的Apriori算法和eclat算法,阐明关联规则的支持、置信和提升程度与控制,使用R语言快速完成关联规则分析。
主要案例:
案例1:使用R语言关联规则方法帮助各个超市实现商品的最佳捆绑销售方案(即“购物篮”分析);
案例2:泰坦尼克号乘客幸存的关联规则分析;
案例3:提高个人收入的关联分析。
决策树(回归树)
分析和R语言实现
决策树是数据挖掘的经典方法,其原理容易被理解。本讲主要讲授两种最为普遍的决策树算法:CART和C4.5算法,使用rpart和J48函数进行R语言分析。
主要案例:
案例1:对汽车耗油量进行决策树分析并完成相关目标变量的预测;
案例2:使用决策树帮助电信局判断和预测客户办理宽带业务。
机器集成学习的
Bagging和AdaBoost算法
这两种方法将许多分类器的预测结果进行汇总分析,从而达到显著提升分类效果。本讲介绍这2种算法的思想,在R语言中构造训练集和测试集进一步进行分析。
主要案例:
案例1:用R语言的Bagging和AdaBoost进行商业银行定期存款的分析和预测;
案例2:用R语言的Bagging和AdaBoost识别有毒蘑菇。
R语言随机森林
(RandomForest)算法
在机器学习中,随机森林是一个包含多个决策树的分类器,本讲讲清随机森林方法的原理,以致在实际中帮助学员判断适合进行随机森林分析的情况,最终熟练掌握R语言随机森林分析的方法。
主要案例:
案例1:对皮肤病进行随机森林的分类和预测;
案例2:对酒的品质和种类进行分类和评价。
支持向量机和
R语言的实现
本讲将分析支持向量机的结构风险最小原理、间隔和核函数,从而帮助学员深刻理解支持向量机的思想和算法,以及使用中注意的问题,从而帮助学员灵活地应用于各个领域。
主要案例:
案例1:对著名的鸢尾花数据进行支持向量机的分析;
案例2:使用支持向量机识别有毒蘑菇;
案例3:使用支持向量机进行股票指数预测。
神经网络和
R语言的实现
神经网络由大量的节点和输出函数构成逻辑策略,本讲介绍其原理,主要通过案例的方式讲解R语言实现神经网络算法的过程和注意的事项。
主要案例:
案例1:酒的品质和种类的神经网络的分析和预测;
案例2:公司财务预警建模。
对于同一个数据,可能有很多模型来拟合,如何衡量和比较模型的精度呢?本讲将介绍交叉验证训练集和测试集的方法来帮助大家在实际中选取最佳模型进行拟合和预测。
文本挖掘,特别是对中文的文本挖掘日趋重要。本讲介绍文本挖掘的原理和方法,帮助大家使用R语言在大量的非结构化的数据中发现有价值的信息,抽取潜在有用的数据,发现适合模式,实现可视化结果展示。
主要案例:
案例:使用R语言结合KNN算法对网页(Web)进行文本挖掘(含分词、分类、可视化等)。

 




如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

微信号.jpg

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>