课程培训
R语言(统计/可视化)培训

R语言(统计/可视化)培训课程大纲

 

培训对象

  • 数据分析师/统计分析师/数据挖掘工程师

  • 高校统计学/数据科学/生物信息等专业师生

  • 金融/经济/医疗/市场研究等领域的科研与从业人员

  • 需要从数据中挖掘规律并进行可视化呈现的职场人士

  • 零基础但希望系统掌握R语言统计分析技能的初学者

 

培训目标
使学员从零开始系统掌握R语言的核心语法与统计分析功能,熟练运用R进行数据清洗、整理与探索性分析;深入理解描述统计、假设检验、方差分析、回归分析等常用统计方法的R语言实现;精通tidyverse生态(dplyr/ggplot2)进行高效数据处理与图形绘制;能够独立完成从数据导入、统计建模到可视化报告的全流程分析项目。


 

培训内容介绍

 

一、R语言基础与开发环境

(1)R语言概述:R语言的发展历程与核心优势;R在统计分析与数据可视化领域的地位;R与Python的对比与选型策略;R语言社区与资源(CRAN/R-bloggers/Stack Overflow)。

(2)开发环境搭建:R语言安装与配置;RStudio集成开发环境使用(界面导航/快捷键/项目管理);R包管理(安装/加载/更新);工作空间管理(getwd/setwd/ls/rm);第一个R程序。

(3)帮助系统与文档:R内置帮助函数(help/example/vignette);R包文档查阅;CRAN Task Views应用;在线学习资源推荐。

 

二、R语言基础语法

(1)基本数据类型:数值型(numeric);字符型(character);逻辑型(logical);因子型(factor);日期时间型(Date/POSIXct)。

(2)变量与赋值:变量命名规范;赋值操作符(=与<-的区别);变量查看与删除;常量与特殊值(NA/NULL/Inf/NaN)。

(3)基本运算与操作:算术运算符;比较运算符;逻辑运算符;向量化运算特性;类型转换(as.numeric/as.character)。

(4)流程控制:条件判断(if/else);循环结构(for/while);循环控制(break/next);向量化操作替代循环。

 

三、R语言数据结构

(1)向量:向量创建(c/seq/rep);向量命名;向量索引与切片;向量运算与向量化;向量排序与去重。

(2)矩阵与数组:矩阵创建(matrix);矩阵索引与切片;矩阵运算(加减乘除/转置/逆);数组(array)基础。

(3)列表:列表创建(list);列表索引与切片;列表元素的增删改;列表与向量的转换。

(4)数据框:数据框创建(data.frame);数据框查看(head/str/summary);列操作($/[[]]/[[列名]]);行操作;数据框合并(cbind/rbind/merge)。

(5)因子:因子创建(factor);因子水平设置;有序因子;因子的应用场景。

 

四、数据导入与导出

(1)文本文件导入:read.table()系列函数;read.csv()与read.delim();参数配置(header/sep/stringsAsFactors);大文件读取优化(data.table::fread)。

(2)Excel文件导入:readxl包使用;openxlsx包使用;多工作表读取;指定数据类型读取。

(3)数据库数据导入:DBI接口;odbc连接;RMySQL/RPostgreSQL包;SQL查询执行。

(4)其他格式导入:SPSS数据导入(haven);SAS数据导入;Stata数据导入;JSON数据导入(jsonlite)。

(5)数据导出:write.table()系列函数;write.csv();保存为R数据格式(RData/Rds)。

 

五、tidyverse数据清洗与处理

(1)tidyverse生态概述:tidyverse核心思想(整洁数据);tidyverse包族谱(dplyr/tidyr/ggplot2/readr/purrr);管道操作符%>%的使用与优势。

(2)dplyr数据操作核心:select()选择列;filter()筛选行;mutate()新增/修改列;arrange()排序;summarise()聚合汇总;group_by()分组操作。

(3)高级dplyr操作:跨列操作(across/if_all/if_any);窗口函数(row_number/rank/lag/lead);条件聚合(summarise配合条件判断);连接操作(inner_join/left_join/right_join/full_join/anti_join/semi_join)。

(4)tidyr数据整理:长宽数据转换(pivot_longer/pivot_wider);数据分列与合并(separate/unite);缺失值处理(drop_na/fill/replace_na);嵌套数据处理。

(5)purrr函数式编程:map()系列函数;map2()与pmap();列表列操作;迭代替代循环。

 

六、数据清洗与预处理

(1)缺失值处理:缺失值识别(is.na/complete.cases);缺失值可视化;缺失值删除(na.omit/drop_na);缺失值填补(均值/中位数/前向填充/插值)。

(2)异常值处理:异常值检测方法(箱线图/3σ法则/聚类方法);异常值替换与截尾;异常值剔除策略。

(3)重复值处理:重复值识别(duplicated);重复值删除(distinct)。

(4)数据变换:标准化与归一化(scale);对数变换;Box-Cox变换;幂变换。

(5)数据类型转换:日期时间解析(lubridate包);字符编码处理;因子重编码。

 

七、描述性统计分析

(1)集中趋势度量:均值(mean);中位数(median);众数(自定义函数);分位数(quantile);几何均值与调和均值。

(2)离散程度度量:方差与标准差(var/sd);极差(range);四分位距(IQR);变异系数(cv)。

(3)分布形态度量:偏度(skewness);峰度(kurtosis);分布形状可视化。

(4)分组描述统计:aggregate()函数;by()函数;dplyr分组汇总;psych::describeBy()。

(5)描述统计报表生成:tableone包;summary()输出定制;输出到Word/Excel。

 

八、ggplot2数据可视化基础

(1)ggplot2图形语法:图层语法(Layer Grammar);数据(data)与映射(aes);几何对象(geoms);统计变换(stats);分面(facets);主题(theme)。

(2)基础几何对象:散点图(geom_point);折线图(geom_line);条形图(geom_bar/geom_col);直方图(geom_histogram);箱线图(geom_boxplot);密度图(geom_density)。

(3)颜色与填充:颜色映射;手动颜色设置(scale_color_manual);调色板应用(RColorBrewer/viridis);连续颜色渐变。

(4)坐标轴与图例:坐标轴设置(scale_x_continuous);图例位置与标题;主题调整(theme函数)。

(5)分面系统:facet_wrap();facet_grid();自由坐标轴设置;分面标签定制。

 

九、ggplot2高级可视化

(1)统计变换:stat_summary();stat_smooth();stat_ecdf();stat_qq();统计变换的应用场景。

(2)多图层组合:图层叠加顺序;透明度设置;不同数据源的图层组合;annotation_custom()添加注释。

(3)图形排布与组合:gridExtra包(grid.arrange);cowplot包(plot_grid);patchwork包(| /);图形对齐与统一图例。

(4)主题系统:内置主题(theme_bw/theme_minimal/theme_classic);自定义主题创建;主题元素修改。

(5)扩展可视化包:plotly交互式图形;ggrepel避免标签重叠;ggforce高级几何对象;ggraph网络图。

 

十、概率分布与随机数

(1)常用概率分布:正态分布(dnorm/pnorm/qnorm/rnorm);t分布;卡方分布;F分布;二项分布;泊松分布;指数分布。

(2)分布拟合优度检验:Q-Q图(qqnorm/qqline);Shapiro-Wilk正态性检验;Kolmogorov-Smirnov检验;分布拟合(fitdistrplus包)。

(3)随机数生成:set.seed()设置随机种子;各种分布随机数生成;随机抽样(sample);自助法(bootstrap)基础。

(4)中心极限定理:模拟验证中心极限定理;抽样分布理解。

 

十一、假设检验与方差分析

(1)假设检验基础:原假设与备择假设;显著性水平与p值;第一类错误与第二类错误;检验功效。

(2)t检验系列:单样本t检验(t.test);独立样本t检验(方差齐性检验);配对样本t检验;效应量计算(effsize包)。

(3)方差分析:单因素方差分析(aov);多重比较(TukeyHSD);双因素方差分析(主效应/交互效应);重复测量方差分析。

(4)非参数检验:Mann-Whitney U检验(wilcox.test);Kruskal-Wallis检验(kruskal.test);Wilcoxon符号秩检验;Friedman检验。

(5)卡方检验:拟合优度卡方检验(chisq.test);独立性卡方检验;Fisher精确检验;McNemar检验。

 

十二、相关分析与回归分析

(1)相关分析:皮尔逊相关系数(cor/cor.test);斯皮尔曼等级相关;肯德尔tau相关;偏相关分析(ppcor包);相关矩阵可视化(corrplot包)。

(2)线性回归:一元线性回归(lm);多元线性回归;模型诊断(plot/残差分析);共线性诊断(vif);逐步回归(step)。

(3)广义线性模型:逻辑回归(glm);泊松回归;模型评估与预测;优势比(OR)计算。

(4)非线性回归:多项式回归;分段回归;局部加权回归(loess)。

(5)回归模型诊断与优化:残差正态性检验;异方差检验(bptest);异常值识别(cooks.distance);模型比较(AIC/BIC)。

 

十三、时间序列分析基础

(1)时间序列对象:ts对象创建;zoo/xts包时间序列;时间序列组件(趋势/季节/随机);时间序列可视化。

(2)时间序列分解:加法模型与乘法模型;decompose()函数;季节性调整;STL分解。

(3)平稳性检验:ADF检验(adf.test);KPSS检验;自相关函数(acf);偏自相关函数(pacf)。

(4)ARIMA模型:模型识别(ACF/PACF定阶);模型估计(arima);模型诊断;模型预测(forecast包);自动ARIMA(auto.arima)。

(5)指数平滑模型:简单指数平滑(HoltWinters);Holt线性趋势;Holt-Winters季节模型;模型参数选择。

 

十四、统计建模综合应用

(1)主成分分析与因子分析:PCA原理(prcomp/princomp);因子分析(factanal);碎石图与载荷矩阵解读;biplot可视化。

(2)聚类分析:K-Means聚类(kmeans);层次聚类(hclust);聚类结果可视化(fviz_cluster);聚类数选择。

(3)判别分析:线性判别分析(lda);二次判别分析(qda);混淆矩阵与分类准确率。

(4)生存分析:生存数据特点;Kaplan-Meier生存曲线(survfit);log-rank检验;Cox比例风险模型(coxph)。

 

十五、动态报告与综合实战

(1)R Markdown动态报告:R Markdown工作流程;文档编译与输出格式(HTML/PDF/Word);代码块选项设置;表格与图形嵌入;幻灯片制作基础。

(2)项目一:问卷数据分析全流程:数据导入与清洗→描述性统计分析→信效度检验→人口学变量差异分析→影响因素回归分析→可视化图表制作→R Markdown报告生成。

(3)项目二:电商销售数据分析:销售数据导入与预处理→时间序列分解→销售趋势预测→RFM客户价值分群→客户画像可视化→交互式仪表盘制作(flexdashboard)。

(4)项目三:生物统计与医学数据分析:临床试验数据导入→基线特征表生成→生存分析曲线绘制→Cox回归建模→森林图可视化→符合SCI要求的图表输出。

(5)项目四:市场调研与客户洞察:问卷数据清洗→因子分析降维→聚类分析客户分群→不同客群特征差异检验→对应分析品牌定位→可视化报告呈现。




如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>