课程培训
R语言培训课程体系(选修)

 

R语言培训课程体系(选修)

课程目录

  1. 专题一:R语言基础与编程环境入门

  2. 专题二:R语言数据结构与数据操作

  3. 专题三:R语言程序控制结构与函数编程

  4. 专题四:数据清洗与预处理技术

  5. 专题五:数据可视化基础(基础绘图系统)

  6. 专题六:高级数据可视化(ggplot2与交互式绘图)

  7. 专题七:概率统计基础与假设检验

  8. 专题八:线性回归与广义线性模型

  9. 专题九:方差分析与实验设计

  10. 专题十:机器学习与数据挖掘(分类与聚类)

  11. 专题十一:时间序列分析与预测

  12. 专题十二:文本挖掘与网络爬虫

  13. 专题十三:R语言高级编程与性能优化

  14. 专题十四:R包开发与文档编写

  15. 专题十五:Shiny交互式Web应用开发

  16. 专题十六:RMarkdown/Quarto可重复性研究报告

  17. 专题十七:R与数据库/大数据平台集成

  18. 专题十八:R语言行业应用实战(金融/生物/电商)

 

专题一:R语言基础与编程环境入门

  • 培训对象:零基础入门学员、数据分析初学者、需要从Excel过渡到编程分析的业务人员。

  • 培训目标

    1. 掌握R与RStudio的安装配置,熟悉集成开发环境的基本操作。

    2. 理解R语言的基本特性与设计哲学,建立对R生态系统的整体认知

    3. 掌握R的基本语法、运算符、变量赋值与常用函数调用。

  • 培训内容介绍

    1. R语言概述:了解R语言的历史与发展,认识其作为统计计算和数据可视化语言的核心优势(开源、跨平台、丰富的扩展包)

    2. R与RStudio安装:学习R语言环境的下载与安装,掌握RStudio IDE的配置方法,熟悉控制台、编辑器、环境面板、文件面板等核心界面。

    3. 第一个R程序:使用R作为计算器,学习基本算术运算,编写第一个脚本文件并运行,体验从代码到结果的过程。

    4. 工作目录管理:掌握getwd()、setwd()等函数设置和查询工作目录,学习项目的创建与管理方式。

    5. 包的管理与使用:理解R包作为功能扩展模块的概念,掌握install.packages()安装包、library()加载包、update.packages()更新包的方法

    6. R语言基本语法:学习变量命名规则与赋值操作(<-、=、->),掌握基本数据类型的识别与操作。

    7. 运算符体系:掌握算术运算符(+、-、*、/、^、%%)、关系运算符(>、<、==、!=)、逻辑运算符(&、|、!)的使用。

    8. 常用内置函数:学习数学函数(sqrt、log、exp、sin)、统计函数(sum、mean、max、min)、字符串函数(nchar、substr、paste)的基本用法。

    9. 向量化运算:理解R语言的向量化特性,学习对向量整体进行运算的方法,避免显式循环。

    10. 帮助系统使用:掌握?、help()、example()、vignette()等帮助函数的使用,学会查阅文档和示例

    11. R语言资源:介绍CRAN、R-bloggers、Stack Overflow等学习资源,了解如何获取帮助和扩展知识

    12. 编程规范初步:学习基本的代码注释、命名规范,养成良好的编程习惯。

 

专题二:R语言数据结构与数据操作

  • 培训对象:有一定编程基础的分析人员、需要系统掌握R数据结构的开发者。

  • 培训目标

    1. 掌握R语言的核心数据结构(向量、矩阵、数组、列表、数据框、因子)及其操作。

    2. 理解不同数据结构的适用场景,能够根据数据特点选择合适的存储方式。

    3. 掌握数据的导入导出方法,能够从外部文件读取数据并进行初步探索。

  • 培训内容介绍

    1. 向量(Vector):学习向量的创建(c()、seq()、rep())、向量元素的访问(索引、逻辑索引)、向量运算与向量化函数应用

    2. 矩阵(Matrix):掌握矩阵的创建(matrix())、行列命名、矩阵元素的访问与修改,学习矩阵运算(加减乘除、转置、求逆)。

    3. 数组(Array):了解多维数组的创建与操作,掌握数组维度的概念与维度名称的设置。

    4. 列表(List):学习列表作为不同数据类型的容器,掌握列表的创建、元素访问([]、[[]]、$)与嵌套操作

    5. 数据框(DataFrame):理解数据框作为表格数据的核心结构,掌握数据框的创建、行列操作、变量访问与子集提取。

    6. 因子(Factor):学习因子作为分类变量的表示方式,掌握因子的创建、水平设置与有序因子的应用

    7. 数据类型转换:掌握不同数据结构间的转换方法(as.vector、as.matrix、as.data.frame),理解转换规则与注意事项。

    8. 数据导入:学习使用read.table()、read.csv()读取文本文件,掌握参数设置(header、sep、stringsAsFactors)

    9. 数据导出:掌握write.table()、write.csv()将数据写入文件的方法,学习保存R对象(saveRDS、save)与加载。

    10. 数据探索函数:学习head()、tail()、str()、summary()、dim()、names()等函数快速了解数据概况

    11. 缺失值处理:理解缺失值(NA)的概念,掌握is.na()、complete.cases()等函数识别和处理缺失值

    12. tidyverse生态入门:了解tidyverse核心包(dplyr、tidyr、ggplot2、tibble)的设计理念,初步接触管道操作符%>%

 

专题三:R语言程序控制结构与函数编程

  • 培训对象:需要编写复杂分析脚本、开发可复用代码的分析人员与研究者。

  • 培训目标

    1. 掌握R语言的程序控制结构(条件判断、循环),能够编写结构化程序。

    2. 理解函数的概念与作用,能够编写自定义函数实现模块化编程。

    3. 掌握向量化编程技巧,避免低效循环,提升代码执行效率

  • 培训内容介绍

    1. 条件判断语句:学习if-else语句的语法与使用,掌握多条件嵌套判断的实现方法

    2. 向量化条件判断:掌握ifelse()函数的向量化操作,实现对向量的批量条件判断。

    3. switch语句:学习switch()函数在多分支选择中的应用,简化多重if-else结构。

    4. 循环结构:掌握for循环的语法与使用,学习循环嵌套与循环控制(next、break)

    5. while循环:学习while循环的使用场景,理解条件循环的执行机制。

    6. repeat循环:了解repeat循环与break语句的配合使用,处理不确定次数的循环。

    7. apply函数族:掌握apply()、lapply()、sapply()、tapply()、mapply()等函数的使用,实现对数据结构的批量处理

    8. 函数定义:学习函数的定义语法(function()),掌握形式参数、默认参数、返回值的使用

    9. 作用域规则:理解词法作用域的概念,区分全局变量与局部变量,掌握<<-赋值操作符的使用

    10. 匿名函数:学习匿名函数的定义与使用,在apply族函数中快速定义简单功能。

    11. 递归函数:了解递归函数的原理与实现,掌握递归解决分治问题的思路。

    12. 错误处理:学习tryCatch()等错误处理机制,编写健壮的程序应对异常情况

 

专题四:数据清洗与预处理技术

  • 培训对象:数据分析师、数据科学家、需要处理脏乱数据的业务人员。

  • 培训目标

    1. 掌握使用dplyr包进行数据筛选、排序、变换、分组汇总等操作

    2. 掌握使用tidyr包进行数据长宽转换、缺失值处理、列拆分与合并

    3. 能够完成从原始数据到分析就绪数据的完整清洗流程。

  • 培训内容介绍

    1. dplyr包概述:了解dplyr作为数据操作核心包的设计理念,掌握其核心动词(动词函数)的功能

    2. 行操作:学习filter()按条件筛选行,slice()按位置选取行,distinct()去除重复行。

    3. 列操作:掌握select()选择列、rename()重命名列、mutate()添加新列、transmute()保留新列。

    4. 排序:学习arrange()按指定列排序,掌握多列排序与降序排序的方法。

    5. 分组汇总:掌握group_by()分组操作,结合summarise()计算分组统计量(均值、计数、标准差等)。

    6. 管道操作:深入理解%>%管道操作符,学习将多个操作串联成流畅的数据处理管道

    7. tidyr包概述:了解tidyr包在数据整洁化中的作用,理解整洁数据的基本原则

    8. 长宽转换:掌握pivot_longer()将宽表转换为长表,pivot_wider()将长表转换为宽表。

    9. 列拆分与合并:学习separate()将一列拆分为多列,unite()将多列合并为一列。

    10. 缺失值处理:掌握drop_na()删除缺失行,fill()填充缺失值,replace_na()替换缺失值。

    11. 数据合并:学习bind_rows()、bind_cols()进行简单合并,掌握join系列函数(inner_join、left_join、right_join、full_join)进行关联合并

    12. 实战案例:电商订单数据清洗:综合应用dplyr和tidyr完成订单数据的清洗、转换与汇总分析。

 

专题五:数据可视化基础(基础绘图系统)

  • 培训对象:需要快速生成统计图表进行数据探索的分析人员、科研人员。

  • 培训目标

    1. 理解R基础绘图系统的设计理念与工作方式。

    2. 掌握常用统计图表的绘制方法(散点图、折线图、条形图、直方图、箱线图)。

    3. 能够对图形进行精细调整(颜色、标签、图例、坐标轴),满足基础出版要求。

  • 培训内容介绍

    1. 基础绘图系统概述:了解R基础绘图系统(graphics包)的特点,理解高级绘图函数与低级绘图函数的分工。

    2. 散点图:学习plot()函数的基本用法,绘制散点图展示两个连续变量的关系。

    3. 散点图增强:掌握添加趋势线(abline())、添加文本标签(text())、设置点形状与颜色。

    4. 折线图:学习plot()和lines()绘制折线图,用于时间序列数据的可视化。

    5. 条形图:掌握barplot()绘制条形图,展示分类数据的频数分布。

    6. 直方图:学习hist()绘制直方图,展示连续变量的分布形态,掌握组距设置。

    7. 箱线图:掌握boxplot()绘制箱线图,展示数据分布特征与异常值检测。

    8. 饼图:了解pie()绘制饼图的用法,理解饼图的适用场景与局限性。

    9. 多图布局:学习par(mfrow)和layout()函数,实现多幅图形在同一页面的组合显示。

    10. 图形参数控制:掌握par()函数设置全局图形参数(颜色、字体、边距、点型、线型)。

    11. 颜色设置:学习颜色指定方式(名称、RGB、十六进制),使用调色板函数(rainbow、heat.colors)生成颜色序列。

    12. 图例与标题:掌握legend()添加图例,title()添加标题、副标题、坐标轴标签,实现图形完整标注。

 

专题六:高级数据可视化(ggplot2与交互式绘图)

  • 培训对象:需要制作出版级统计图表、交互式可视化应用的数据分析师、科研人员

  • 培训目标

    1. 理解ggplot2的图形语法(Grammar of Graphics)设计理念。

    2. 掌握使用ggplot2绘制各类统计图形,并能进行精细化定制

    3. 学习plotly等交互式绘图工具,创建可交互的动态图表。

  • 培训内容介绍

    1. ggplot2概述:了解ggplot2作为R语言最强大的可视化包的地位,理解其图层语法(数据+映射+几何+统计+坐标+主题)

    2. 散点图与平滑线:学习ggplot()基础语法,使用geom_point()绘制散点图,geom_smooth()添加平滑趋势线。

    3. 条形图与柱状图:掌握geom_bar()统计频数,geom_col()绘制数值柱状图,处理分组与堆叠条形图。

    4. 直方图与密度图:学习geom_histogram()绘制直方图,geom_density()绘制核密度曲线,比较分布形态。

    5. 箱线图与小提琴图:使用geom_boxplot()绘制箱线图,geom_violin()绘制小提琴图,展示分组数据分布。

    6. 分面(Facet) 掌握facet_wrap()和facet_grid()的使用,按一个或多个变量拆分多图显示。

    7. 颜色与填充映射:学习将变量映射到颜色(color)和填充(fill),使用scale_*_manual()自定义颜色。

    8. 坐标轴与图例定制:掌握labs()设置标签,scale_*_continuous()调整坐标轴刻度,theme()定制图例位置。

    9. 主题系统:学习使用预定义主题(theme_bw、theme_minimal),通过theme()函数精细调整图形元素。

    10. 多图层组合:掌握多个几何对象的叠加,组合不同图形类型在同一坐标系中。

    11. plotly交互式绘图:学习使用plotly::ggplotly()将ggplot图形转换为交互式图表,实现悬停提示、缩放、平移

    12. 综合实战:销售数据可视化仪表板:综合应用ggplot2绘制多维度销售分析图表,并转换为交互式图形。

 

专题七:概率统计基础与假设检验

  • 培训对象:需要进行统计分析的研究人员、市场分析师、质量管理人员

  • 培训目标

    1. 掌握R中概率分布函数的使用(密度函数、分布函数、分位数函数、随机数生成)。

    2. 理解参数估计与假设检验的基本原理,能够用R实现常见假设检验

    3. 能够正确解读检验结果,并撰写规范的统计分析报告。

  • 培训内容介绍

    1. 概率分布概述:了解R中处理概率分布的四大类函数(d密度函数、p分布函数、q分位数函数、r随机数生成)。

    2. 正态分布:学习dnorm、pnorm、qnorm、rnorm的使用,绘制正态分布曲线,生成正态随机数。

    3. 二项分布:掌握dbinom、pbinom、qbinom、rbinom的使用,模拟二项试验。

    4. 泊松分布:学习dpois、ppois、qpois、rpois的应用,模拟稀有事件发生次数。

    5. 描述性统计:计算数据的集中趋势(均值、中位数)和离散程度(方差、标准差、四分位距)

    6. 抽样分布:理解中心极限定理,通过模拟展示样本均值的抽样分布。

    7. 区间估计:学习t.test()进行总体均值的区间估计,理解置信区间的含义

    8. 单样本t检验:掌握t.test()进行单样本均值检验,判断样本均值是否等于给定值

    9. 独立样本t检验:学习两独立样本的均值比较,理解方差齐性检验与Welch修正

    10. 配对样本t检验:掌握配对数据的均值比较,适用于前后测量或匹配样本设计

    11. 卡方检验:学习chisq.test()进行拟合优度检验和独立性检验,分析分类变量间的关系

    12. 非参数检验:了解wilcox.test()(Mann-Whitney U检验)、kruskal.test()(Kruskal-Wallis检验)等非参数方法

 

专题八:线性回归与广义线性模型

  • 培训对象:预测建模人员、社会科学研究者、金融分析师、需要建立预测模型的数据分析师。

  • 培训目标

    1. 掌握一元及多元线性回归模型的建立与解释方法。

    2. 理解模型诊断技术(残差分析、多重共线性、异常值检测)

    3. 掌握Logistic回归等广义线性模型,处理二分类问题

  • 培训内容介绍

    1. 线性回归概述:理解回归分析的基本思想,掌握因变量与自变量的概念

    2. 一元线性回归:学习lm()函数建立简单线性回归模型,理解回归系数的含义

    3. 回归模型输出解读:掌握summary()查看模型结果,解读系数估计、p值、R-squared、F统计量。

    4. 模型诊断(残差分析):绘制残差图、Q-Q图,检查线性性、正态性、方差齐性假设

    5. 多元线性回归:学习多个自变量的回归建模,理解偏回归系数的解释

    6. 变量选择:了解逐步回归(step())、全子集回归(regsubsets())等变量选择方法。

    7. 多重共线性:学习vif()计算方差膨胀因子,诊断多重共线性问题及处理方法

    8. 异常值与强影响点:使用cooks.distance()、dffits()等识别强影响点,评估对模型的影响。

    9. 预测与置信区间:学习predict()对新数据进行预测,获取预测值与置信区间。

    10. Logistic回归概述:理解Logistic回归处理二分类因变量的原理,了解logit变换

    11. Logistic回归建模:使用glm()函数设置family=binomial建立Logistic回归模型

    12. 模型评估:学习混淆矩阵、ROC曲线、AUC值等分类模型评估指标

 

专题九:方差分析与实验设计

  • 培训对象:农业、生物、医药、工程等领域需要进行多组比较的研究人员。

  • 培训目标

    1. 理解方差分析的基本原理与适用场景。

    2. 掌握单因素、双因素方差分析的R实现与结果解读

    3. 能够进行事后多重比较,识别组间具体差异

  • 培训内容介绍

    1. 方差分析概述:理解方差分析的基本思想(将总变异分解为组间变异和组内变异),了解适用场景

    2. 单因素方差分析:学习aov()函数进行单因素方差分析,掌握公式语法(y ~ group)

    3. 方差分析表解读:阅读summary()输出的方差分析表,理解自由度、平方和、均方、F值、p值的含义。

    4. 模型诊断:使用plot()绘制残差图,检查方差齐性假设;使用shapiro.test()检验残差正态性。

    5. 多重比较:学习TukeyHSD()进行Tukey诚实显著性差异检验,进行所有组间两两比较

    6. 双因素方差分析:学习包含两个分类自变量的方差分析模型,理解主效应与交互效应

    7. 有交互作用的双因素方差分析:掌握y ~ A * B的模型语法,解读交互效应图。

    8. 无交互作用的双因素方差分析:学习加性模型(y ~ A + B)的建立与解释。

    9. 重复测量方差分析:了解重复测量数据的特点,学习使用aov()或lme()进行分析。

    10. 协方差分析:掌握ANCOVA模型(包含连续协变量)的建立与解释。

    11. 非参数替代方法:了解kruskal.test()(单因素)和friedman.test()(随机区组)作为非参数替代

    12. 实验设计简介:了解完全随机设计、随机区组设计、因子设计的基本原理与R实现。

 

专题十:机器学习与数据挖掘(分类与聚类)

  • 培训对象:数据挖掘工程师、机器学习爱好者、需要应用预测模型的企业分析师。

  • 培训目标

    1. 掌握机器学习的基本流程(数据划分、模型训练、评估、调优)

    2. 学习常用分类算法(KNN、决策树、随机森林、SVM、神经网络)的R实现

    3. 学习常用聚类算法(K-means、层次聚类)的原理与应用

  • 培训内容介绍

    1. 机器学习概述:了解机器学习的基本概念(监督学习、无监督学习),掌握一般建模流程

    2. 数据划分:学习使用caret包或sample()函数将数据划分为训练集和测试集

    3. KNN算法:理解K近邻算法的原理,使用class::knn()或caret包实现KNN分类

    4. 决策树:学习rpart包建立决策树模型,使用rpart.plot可视化树结构

    5. 随机森林:掌握randomForest包建立随机森林模型,理解特征重要性评估

    6. 支持向量机(SVM):学习e1071包中的svm()函数,理解核函数的选择与参数调优

    7. 神经网络:了解nnet包或neuralnet包实现简单神经网络,应用于分类问题

    8. 模型评估:学习混淆矩阵、准确率、召回率、F1-score的计算,绘制ROC曲线

    9. 交叉验证:掌握caret包的trainControl设置交叉验证,进行更稳健的模型评估。

    10. K-means聚类:理解K-means算法原理,使用kmeans()进行聚类分析,确定最佳K值

    11. 层次聚类:学习hclust()进行层次聚类,绘制树状图,选择合适的聚类高度

    12. 聚类评估:了解轮廓系数等聚类评估指标,评估聚类效果

 

专题十一:时间序列分析与预测

  • 培训对象:金融分析师、经济预测人员、销售与运营计划人员、气象与能源领域研究者。

  • 培训目标

    1. 理解时间序列的基本概念(趋势、季节性、周期性、平稳性)。

    2. 掌握时间序列的分解方法与指数平滑模型

    3. 学习ARIMA模型的建模流程(识别、估计、诊断、预测)。

  • 培训内容介绍

    1. 时间序列对象:学习ts()函数创建时间序列对象,设置起始时间、频率等参数。

    2. 时间序列可视化:绘制时间序列图,观察趋势、季节性、周期性特征。

    3. 时间序列分解:使用decompose()或stl()将时间序列分解为趋势、季节、随机成分

    4. 平稳性检验:学习adf.test()(ADF检验)判断序列平稳性,了解差分平稳化方法。

    5. 自相关与偏自相关:绘制ACF和PACF图,理解其在模型识别中的作用。

    6. 指数平滑模型:学习Holt-Winters指数平滑,适用于有趋势和季节性的序列。

    7. ARIMA模型概述:了解AR、MA、ARIMA模型的基本概念,理解p、d、q参数的含义。

    8. 模型识别:根据ACF、PACF图初步判断模型阶数,使用auto.arima()自动选择最优模型。

    9. 模型估计:使用arima()函数估计ARIMA模型参数,解读模型输出。

    10. 模型诊断:检查残差的独立性、正态性,使用Box.test()进行Ljung-Box检验。

    11. 模型预测:学习forecast()进行未来多步预测,绘制预测区间。

    12. 预测精度评估:计算预测误差指标(MAE、RMSE、MAPE),比较不同模型效果。

 

专题十二:文本挖掘与网络爬虫

  • 培训对象:舆情分析师、市场研究人员、社媒运营人员、需要从文本数据中提取信息的分析人员。

  • 培训目标

    1. 掌握文本数据的获取方法(网络爬虫基础、文本文件读取)。

    2. 学习文本预处理技术(分词、去停用词、词干提取)与文本向量化表示(词袋模型、TF-IDF)。

    3. 掌握文本挖掘核心方法(词频分析、情感分析、主题模型)的R实现。

  • 培训内容介绍

    1. 网络爬虫基础:了解爬虫的基本原理与法律边界,学习使用rvest包进行静态网页数据抓取。

    2. HTML解析:掌握CSS选择器和XPath语法,使用html_nodes()和html_text()提取网页内容。

    3. API数据获取:学习使用httr包调用各类API接口,获取JSON格式数据并解析。

    4. 文本数据读取:掌握读取txt、csv、pdf等格式文本文件的方法,处理不同编码问题。

    5. 中文分词技术:学习使用jiebaR或jieba包进行中文分词,掌握自定义词典的加载方法。

    6. 文本预处理:去除标点符号、数字、停用词,进行词干提取或词形还原。

    7. 词频分析:构建词频矩阵,使用wordcloud2包绘制词云图,展示高频词汇。

    8. TF-IDF:理解TF-IDF的加权原理,计算文档-词项权重矩阵,提取文档关键词。

    9. 情感分析:学习情感词典的构建与使用,对文本进行情感极性(正/负/中性)判断。

    10. 主题模型(LDA):了解LDA(隐含狄利克雷分配)的原理,使用topicmodels包进行主题建模。

    11. 文本分类:使用朴素贝叶斯、SVM等方法对文本进行分类,应用于垃圾邮件过滤、新闻分类。

    12. 实战案例:新闻舆情分析:从新闻网站抓取数据,进行情感分析和主题建模,生成舆情报告。

 

专题十三:R语言高级编程与性能优化

  • 培训对象:需要处理大规模数据、编写高性能代码的R开发者、数据分析师。

  • 培训目标

    1. 掌握R语言的面向对象编程体系(S3、S4、R6),能够开发复杂程序。

    2. 学习代码性能分析与优化方法,掌握并行计算技术。

    3. 理解R的内存管理机制,能够处理超出内存限制的大数据。

  • 培训内容介绍

    1. S3面向对象系统:理解S3的泛型函数与方法分发机制,学习创建S3类和方法。

    2. S4面向对象系统:掌握S4类的正式定义、槽位设置、有效性验证,学习方法重载。

    3. R6引用类:学习R6引用语义的面向对象编程,适用于需要修改原对象的场景。

    4. 代码性能分析:使用microbenchmark和profvis包进行基准测试和性能剖析,识别代码瓶颈。

    5. 向量化编程进阶:深入理解R的向量化特性,使用vapply、mapply等函数替代循环。

    6. 编译代码:学习使用compiler包对函数进行即时编译,提升执行速度。

    7. Rcpp入门:了解Rcpp的基本用法,将C++代码集成到R中,大幅提升计算密集型任务的性能。

    8. 并行计算基础:理解并行计算的基本概念,学习使用parallel包的检测核心、创建集群。

    9. 多核计算:掌握parLapply、parSapply等并行版本的apply函数应用。

    10. foreach与doParallel:学习使用foreach包进行并行迭代,配合doParallel注册后端。

    11. 内存管理:理解R的内存分配机制,学习使用gc()强制垃圾回收,避免内存泄漏。

    12. 大数据处理:了解data.table包的高效数据处理,学习使用bigmemory处理超大矩阵。

 

专题十四:R包开发与文档编写

  • 培训对象:需要开发可复用R包的分析师、研究者、企业内部分享代码的开发者。

  • 培训目标

    1. 理解R包的结构与开发流程,能够创建规范的R包。

    2. 掌握R包文档编写方法(Rd格式、roxygen2),生成高质量的帮助文件。

    3. 学习R包的测试、检查与发布流程,能够将包提交到CRAN或企业内部仓库。

  • 培训内容介绍

    1. R包开发概述:了解R包的价值与构成,熟悉包的基本目录结构(R、man、data、tests等)。

    2. 开发工具配置:安装devtools、usethis、roxygen2等开发工具包,配置开发环境。

    3. 创建包项目:使用create_package()创建新包,学习包的命名规范与版本管理。

    4. 编写函数:在R目录下组织函数代码,遵循函数编写规范,添加注释。

    5. 文档生成:使用roxygen2语法在函数前添加文档注释,生成Rd格式帮助文件。

    6. 数据打包:学习将数据集打包到包中,使用LazyData机制优化加载。

    7. 命名空间管理:理解NAMESPACE文件的作用,使用export、importFrom控制函数可见性。

    8. 依赖管理:在DESCRIPTION文件中声明包的依赖关系,确保包的正确安装。

    9. 单元测试:学习使用testthat包编写单元测试,确保函数功能的正确性。

    10. 代码检查:使用devtools::check()进行包的全面检查,修复错误、警告和注意事项。

    11. Vignette编写:创建包的Vignette文档,展示包的主要用法和应用场景。

    12. 包发布:学习将包提交到CRAN的流程,或在企业内部GitLab建立私有仓库。

 

专题十五:Shiny交互式Web应用开发

  • 培训对象:需要将数据分析结果转化为交互式Web应用的分析师、数据科学家。

  • 培训目标

    1. 理解Shiny应用的响应式编程模型与基本架构(UI与Server分离)。

    2. 掌握Shiny常用输入输出控件,能够构建基础交互式应用。

    3. 学习Shiny应用的布局设计、主题定制与部署发布。

  • 培训内容介绍

    1. Shiny概述:了解Shiny作为R的Web应用框架的特点,认识响应式编程的基本概念。

    2. 第一个Shiny应用:创建最简单的Shiny应用(UI+Server),理解输入与输出的绑定。

    3. UI布局设计:学习fluidPage、navbarPage、sidebarLayout等布局函数的使用。

    4. 输入控件:掌握sliderInput、selectInput、textInput、dateInput、fileInput等常用输入控件。

    5. 输出控件:学习plotOutput、tableOutput、textOutput、verbatimTextOutput等输出控件。

    6. 响应式表达式:理解reactive()的使用,缓存计算结果,避免重复计算。

    7. 响应式事件:学习eventReactive、observeEvent处理事件驱动的更新。

    8. 数据共享:掌握reactiveValues用于在多个响应式表达式中共享数据状态。

    9. 动态UI:学习使用renderUI和uiOutput动态生成UI元素,实现灵活交互。

    10. 主题与样式:使用shinythemes包应用预定义主题,自定义CSS美化界面。

    11. 模块化开发:学习Shiny模块的概念,将复杂应用拆分为可复用模块。

    12. 应用部署:掌握shinyapps.io云部署、自建Shiny Server部署和R连接Connect部署。

 

专题十六:RMarkdown/Quarto可重复性研究报告

  • 培训对象:需要生成动态报告、学术论文、技术文档的研究人员、数据分析师。

  • 培训目标

    1. 理解文学化编程的理念,掌握RMarkdown/Quarto的基本语法。

    2. 能够创建包含代码、结果、图表的动态文档,输出HTML、PDF、Word等多种格式。

    3. 学习文档参数化、引用管理、自定义主题等高级功能。

  • 培训内容介绍

    1. RMarkdown概述:了解文学化编程的概念,认识RMarkdown在可重复性研究中的作用。

    2. RMarkdown基础语法:掌握YAML元数据、Markdown文本格式、R代码块的基本语法。

    3. 代码块选项:学习echo、eval、include、fig.width等代码块选项的设置。

    4. 内联代码:使用r 语法在文本中嵌入计算结果,实现动态报告。

    5. 表格输出:学习kable、kableExtra、DT包生成美观的表格。

    6. 图表输出:控制图表尺寸、分辨率、格式,使用fig.cap添加标题。

    7. 文档输出格式:学习输出HTML、PDF、Word文档的方法,解决中文PDF输出问题。

    8. 参考文献管理:使用BibTeX管理参考文献,在文档中引用文献。

    9. 文档参数化:定义文档参数,实现同一份报告生成不同条件下的输出。

    10. Quarto新特性:了解Quarto作为RMarkdown的下一代工具的优势(多语言支持、更丰富的输出格式)。

    11. 网站与书籍:学习使用RMarkdown/Quarto创建个人网站、技术博客、电子书籍。

    12. 实战案例:数据分析报告:从数据导入、清洗、分析到报告生成的完整流程。

 

专题十七:R与数据库/大数据平台集成

  • 培训对象:需要处理大规模数据的企业数据分析师、数据工程师、商业智能开发者。

  • 培训目标

    1. 掌握R连接各类数据库的方法(MySQL、PostgreSQL、SQL Server、SQLite)。

    2. 学习使用dbplyr实现数据库内的惰性操作,避免数据导出内存溢出。

    3. 了解R与Spark、Hadoop等大数据平台的集成方法。

  • 培训内容介绍

    1. 数据库连接基础:学习使用DBI包建立数据库连接,理解连接对象的概念。

    2. SQL查询执行:使用dbGetQuery()执行SQL语句,获取查询结果。

    3. 数据写入:掌握dbWriteTable()将R数据框写入数据库表。

    4. odbc连接:学习使用odbc包通过ODBC驱动连接各种数据库。

    5. RMySQL/RPostgreSQL:学习专用数据库连接包的使用方法。

    6. dbplyr概述:理解dbplyr如何将dplyr操作翻译为SQL查询,实现数据库内计算。

    7. 惰性操作:创建tbl()惰性数据帧,使用dplyr动词操作,最后通过collect()获取结果。

    8. SQL翻译规则:了解常用dplyr函数到SQL的翻译规则,避免不支持的函数。

    9. 性能优化:学习使用explain()查看查询计划,优化数据库操作。

    10. Sparklyr:学习连接Spark集群,使用sparklyr进行分布式数据处理。

    11. Spark机器学习:使用sparklyr调用Spark MLlib,进行大规模机器学习建模。

    12. 实战案例:企业销售数据分析:从企业数据库提取百万级销售数据,进行分析并生成报告。

 

专题十八:R语言行业应用实战(金融/生物/电商)

  • 培训对象:各行业领域的数据分析师、业务专家、需要将R技能应用于具体行业的专业人员。

  • 培训目标

    1. 掌握金融领域R应用(量化投资、风险管理、金融时间序列)。

    2. 学习生物信息学领域R应用(基因组数据分析、生物统计)。

    3. 掌握电商领域R应用(用户行为分析、商品推荐、营销效果评估)。

  • 培训内容介绍

    1. 金融数据分析概述:了解R在金融领域的应用场景,熟悉quantmod等金融分析包。

    2. 股票数据获取:使用quantmod从Yahoo Finance、Google Finance获取股票数据。

    3. 金融指标计算:计算移动平均线、RSI、MACD等技术指标,绘制金融图表。

    4. 量化策略回测:使用PerformanceAnalytics包进行策略绩效评估,计算夏普比率、最大回撤。

    5. 投资组合优化:学习使用fPortfolio包进行均值-方差投资组合优化。

    6. 风险管理:使用风险价值(VaR)和条件风险价值(CVaR)度量投资风险。

    7. 生物信息学概述:了解Bioconductor项目,熟悉常用的生物信息学包。

    8. 基因表达数据分析:学习处理微阵列或RNA-seq数据,进行差异表达分析。

    9. 生存分析:使用survival包进行生存数据建模,绘制Kaplan-Meier曲线。

    10. 电商用户行为分析:使用RFM模型进行用户分群,识别高价值客户。

    11. 购物篮分析:学习arules包进行关联规则挖掘,发现商品组合购买规律。

    12. 营销效果评估:使用A/B测试分析方法评估营销活动效果,进行 uplift建模。





如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>