(1)大模型训练基础与演进脉络:了解大语言模型的发展历程(从统计语言模型到Transformer架构)。掌握预训练、微调、对齐的三阶段训练范式及其各自目标。学习主流大模型架构(GPT系列、LLaMA、Qwen、DeepSeek)的设计特点与选型策略。理解模型规模(7B、13B、70B)与训练资源、性能表现的关系。
(2)Transformer架构与核心组件深度解析:深入理解Transformer架构的核心技术逻辑,掌握自注意力机制(Self-Attention)的数学原理、多头注意力(Multi-Head Attention)的并行计算机制。学习位置编码的设计思想(正弦编码、RoPE旋转位置编码)。通过代码实现验证对各模块的理解,为后续微调奠定理论基础。
(3)数据准备与处理技术:掌握大模型微调数据准备的核心技术,理解数据质量对模型性能的决定性影响。学习数据集类型与格式规范:指令微调格式(Alpaca格式)、对话格式(ShareGPT格式)、问答格式(QA Pairs)。掌握数据清洗、分块、标注与存储的完整流程。学习使用NVIDIA NeMo Curator等工具筛选高质量数据集并生成合成数据。
(4)全参数微调技术:深入理解全参数微调(Full Fine-tuning)的原理与适用场景,掌握其在大规模计算资源下的精度优势。学习使用HuggingFace Transformers库的Trainer API和自定义训练循环实现全参数微调。了解全参数微调面临的显存挑战与解决方案(梯度累积、混合精度训练)。实践微调DistilBERT进行情感分类的完整流程。
(5)参数高效微调(PEFT)技术:掌握LoRA(低秩适配)的核心原理:低秩矩阵分解、适配器矩阵设计、缩放系数配置。学习QLoRA的量化权重与梯度更新机制,实现在单GPU(8GB显存)上微调百亿参数模型。掌握P-Tuning、Adapter、Prefix Tuning等其他PEFT方法的特点。实践使用PEFT库和LlamaFactory对开源模型进行垂直领域微调。
(6)持续预训练(CPT)技术:理解持续预训练(Continual Pre-training)的必要性与应用场景(领域适应、知识更新)。学习CPT的数据准备策略:高质量数据筛选、去重、领域语料构建。掌握使用Transformers框架进行CPT的代码实现,为模型注入特定领域的新知识。了解CPT基模评测与选择策略。
(7)监督微调(SFT)与指令微调:掌握监督微调(Supervised Fine-tuning)的核心方法,学习构建高质量的指令数据集。理解指令微调在让模型学习新技能和完成特定任务中的作用。实践使用英文数据集微调LLaMA模型,实现文本生成等任务。
(8)RLHF与模型对齐技术:深入理解RLHF(基于人类反馈的强化学习)的三阶段流程:监督微调(SFT)、奖励模型训练(RM)、近端策略优化(PPO)。学习DPO(直接偏好优化)的简化实现原理。掌握使模型在风格、语气和安全性方面更贴近人类偏好的对齐技术。
(9)分布式训练框架与优化:掌握分布式训练的核心技术:数据并行、张量并行、流水线并行的原理与适用场景。学习使用DeepSpeed的ZeRO优化器(Stage1/2/3)大幅降低显存占用。了解Megatron-LM在多节点大规模训练中的应用。实践使用DeepSpeed在单机多卡环境下微调大模型。
(10)模型评估与性能分析:掌握大模型的多维度评估体系:传统指标(Perplexity、BLEU、ROUGE)、指令遵循准确率、模型质量评估(MMLU、HumanEval、CEval)。学习LLM-as-a-judge评估方法和NeMo Evaluator工具的使用。通过评估识别模型微调后的性能变化,避免灾难性遗忘。
(11)模型量化与推理优化:掌握模型量化的核心原理,理解不同量化精度(FP16、INT8、INT4、NF4)对模型性能和推理速度的影响。学习使用AutoGPTQ、AutoAWQ等工具进行模型量化。掌握vLLM的核心优化技术:PagedAttention、连续批处理。实践使用TensorRT-LLM和NeMo进行量化、剪枝与知识蒸馏,实现高效部署。
(12)综合项目实战:垂直领域模型微调与部署:结合所学知识,完成一个完整的企业级大模型微调项目(如医疗问答模型微调、法律文书生成模型、金融研报分析助手)。涵盖需求分析、数据准备、模型选型、LoRA/QLoRA微调、性能评估、量化优化、推理部署的全流程,形成规范的模型微调项目报告。