(1)Transformer架构深度解析:深入理解Transformer架构的核心技术逻辑,掌握自注意力机制(Self-Attention)的数学原理、计算过程与作用。学习多头注意力(Multi-Head Attention)的并行计算机制、位置编码(Positional Encoding)的设计思想(正弦编码、RoPE旋转位置编码)。通过代码实现验证对各模块的理解,掌握编码器与解码器的架构差异及其在BERT与GPT中的应用。
(2)大模型预训练技术体系:掌握大模型预训练的完整流程:数据工程、模型架构、训练策略。学习预训练数据源的获取与处理方法:通用数据(网页、书籍)与专业数据(论文、代码)的清洗、去重、过滤。理解预训练任务的设计:自回归语言建模(GPT)、掩码语言建模(BERT)、下一句预测(NSP)。掌握损失函数、优化器配置与训练稳定性保障技术。
(3)分布式训练框架与优化:掌握分布式训练的核心技术:数据并行、张量并行、流水线并行的原理与适用场景。学习使用DeepSpeed的ZeRO优化器(Stage1/2/3)大幅降低显存占用。了解Megatron-LM在多节点大规模训练中的应用。实践使用DeepSpeed在单机多卡环境下训练大模型,对比不同ZeRO阶段的显存占用与训练效率。
(4)参数高效微调(PEFT)技术:深入理解全参数微调与参数高效微调的适用场景差异。掌握LoRA(低秩适配)的核心原理:低秩矩阵分解、适配器矩阵设计、缩放系数配置。学习QLoRA的量化权重与梯度更新机制,实现在单GPU上微调百亿参数模型。掌握P-Tuning、Adapter、Prefix Tuning等其他PEFT方法的特点。实践使用PEFT库对开源模型进行垂直领域微调。
(5)RLHF与模型对齐技术:理解大模型与人类价值观对齐的必要性。掌握RLHF(基于人类反馈的强化学习)的三阶段流程:监督微调(SFT)、奖励模型训练(RM)、近端策略优化(PPO)。学习DPO(直接偏好优化)的简化实现原理。了解对齐过程中的安全挑战:偏见消除、有害内容过滤。掌握使模型在风格、语气和安全性方面更贴近人类偏好的对齐技术。
(6)混合专家模型(MoE)架构:了解混合专家模型(Mixture-of-Experts)的核心原理与发展演进。掌握稀疏激活专家网络的动态路由机制,学习门控网络(Gating Network)的设计与负载均衡策略。实现小型MoE层,分析专家数量对模型性能和计算效率的影响。了解MoE在大规模模型(如Mixtral 8x7B)中的应用及DeepSeek等模型的架构创新。
(7)注意力机制革新与优化:掌握注意力机制的数学原理与演进脉络。学习稀疏注意力、滑动窗口注意力、FlashAttention的原理与实现。对比不同位置编码(正弦编码、可学习编码、RoPE旋转位置编码)在小型Transformer上的效果差异。理解注意力复杂度分析与优化方向,掌握KV缓存(KV Cache)的优化原理与实现。
(8)数据集构建与处理技术:掌握大模型数据预处理的核心技术,理解数据质量对模型性能的决定性影响。学习使用NVIDIA NeMo Curator等工具筛选高质量数据集并生成合成数据。掌握数据格式规范:指令微调格式(Alpaca格式)、对话格式(ShareGPT格式)。学习数据清洗、分块、标注与存储的完整流程。
(9)持续预训练(CPT)技术:理解持续预训练(Continual Pre-training)的必要性与应用场景(领域适应、知识更新)。学习CPT的数据准备策略:高质量数据筛选、去重、领域语料构建。掌握使用Transformers框架进行CPT的代码实现,为模型注入特定领域的新知识。了解CPT基模评测与选择策略。
(10)模型量化与推理优化:掌握模型量化的核心原理,理解不同量化精度(FP16、INT8、INT4、NF4、GPTQ、AWQ)对模型性能和推理速度的影响。学习使用AutoGPTQ、AutoAWQ等工具进行模型量化。了解TensorRT-LLM的核心优化技术:层融合(Layer Fusion)、内核自动调优。掌握vLLM的PagedAttention(分页注意力)解决KV缓存碎片问题的原理。
(11)大模型评估体系:掌握大模型的多维度评估方法。学习传统指标(Perplexity、BLEU、ROUGE)、指令遵循准确率、模型质量评估(MMLU、HumanEval、CEval)。了解LLM-as-a-judge评估方法和NeMo Evaluator工具的使用。通过评估识别模型训练与微调后的性能变化,避免灾难性遗忘。
(12)综合项目实战:垂直领域大模型训练与微调:结合所学知识,完成一个完整的垂直领域大模型项目(如医疗问答模型微调、法律文书生成模型、金融研报分析助手)。涵盖数据准备、模型选型、LoRA/QLoRA微调、分布式训练配置、性能评估、量化优化的全流程,形成规范的模型训练与微调项目报告。