大模型核心技术培训课程-中科信软培训中心

课程培训

数据方向培训

大厂培训

业务与运营

科学计算与工程仿真

机械设计培训

CFD培训

CAE培训

其它

设计方向

软考类

大模型核心技术培训课程

大模型核心技术培训课程大纲

培训对象：
适合具备Python编程基础、了解深度学习基本概念，希望深入掌握大语言模型核心算法原理与实现技术的算法工程师、AI应用开发者、科研人员及计算机相关专业研究生。
培训目标：
完成本课程后，学员将能够深入理解Transformer架构的数学原理与设计思想，系统掌握大模型预训练、微调、对齐的完整技术体系，熟练使用主流训练框架（DeepSpeed、Megatron-LM）进行分布式训练，具备从零搭建、训练和优化大模型的核心技术能力。
培训内容：
（1）Transformer架构深度解析：深入理解Transformer架构的核心技术逻辑，掌握自注意力机制（Self-Attention）的数学原理、计算过程与作用。学习多头注意力（Multi-Head Attention）的并行计算机制、位置编码（Positional Encoding）的设计思想（正弦编码、RoPE旋转位置编码）。通过代码实现验证对各模块的理解，掌握编码器与解码器的架构差异及其在BERT与GPT中的应用。

（2）大模型预训练技术体系：掌握大模型预训练的完整流程：数据工程、模型架构、训练策略。学习预训练数据源的获取与处理方法：通用数据（网页、书籍）与专业数据（论文、代码）的清洗、去重、过滤。理解预训练任务的设计：自回归语言建模（GPT）、掩码语言建模（BERT）、下一句预测（NSP）。掌握损失函数、优化器配置与训练稳定性保障技术。

（3）分布式训练框架与优化：掌握分布式训练的核心技术：数据并行、张量并行、流水线并行的原理与适用场景。学习使用DeepSpeed的ZeRO优化器（Stage1/2/3）大幅降低显存占用。了解Megatron-LM在多节点大规模训练中的应用。实践使用DeepSpeed在单机多卡环境下训练大模型，对比不同ZeRO阶段的显存占用与训练效率。

（4）参数高效微调（PEFT）技术：深入理解全参数微调与参数高效微调的适用场景差异。掌握LoRA（低秩适配）的核心原理：低秩矩阵分解、适配器矩阵设计、缩放系数配置。学习QLoRA的量化权重与梯度更新机制，实现在单GPU上微调百亿参数模型。掌握P-Tuning、Adapter、Prefix Tuning等其他PEFT方法的特点。实践使用PEFT库对开源模型进行垂直领域微调。

（5）RLHF与模型对齐技术：理解大模型与人类价值观对齐的必要性。掌握RLHF（基于人类反馈的强化学习）的三阶段流程：监督微调（SFT）、奖励模型训练（RM）、近端策略优化（PPO）。学习DPO（直接偏好优化）的简化实现原理。了解对齐过程中的安全挑战：偏见消除、有害内容过滤。掌握使模型在风格、语气和安全性方面更贴近人类偏好的对齐技术。

（6）混合专家模型（MoE）架构：了解混合专家模型（Mixture-of-Experts）的核心原理与发展演进。掌握稀疏激活专家网络的动态路由机制，学习门控网络（Gating Network）的设计与负载均衡策略。实现小型MoE层，分析专家数量对模型性能和计算效率的影响。了解MoE在大规模模型（如Mixtral 8x7B）中的应用及DeepSeek等模型的架构创新。

（7）注意力机制革新与优化：掌握注意力机制的数学原理与演进脉络。学习稀疏注意力、滑动窗口注意力、FlashAttention的原理与实现。对比不同位置编码（正弦编码、可学习编码、RoPE旋转位置编码）在小型Transformer上的效果差异。理解注意力复杂度分析与优化方向，掌握KV缓存（KV Cache）的优化原理与实现。

（8）数据集构建与处理技术：掌握大模型数据预处理的核心技术，理解数据质量对模型性能的决定性影响。学习使用NVIDIA NeMo Curator等工具筛选高质量数据集并生成合成数据。掌握数据格式规范：指令微调格式（Alpaca格式）、对话格式（ShareGPT格式）。学习数据清洗、分块、标注与存储的完整流程。

（9）持续预训练（CPT）技术：理解持续预训练（Continual Pre-training）的必要性与应用场景（领域适应、知识更新）。学习CPT的数据准备策略：高质量数据筛选、去重、领域语料构建。掌握使用Transformers框架进行CPT的代码实现，为模型注入特定领域的新知识。了解CPT基模评测与选择策略。

（10）模型量化与推理优化：掌握模型量化的核心原理，理解不同量化精度（FP16、INT8、INT4、NF4、GPTQ、AWQ）对模型性能和推理速度的影响。学习使用AutoGPTQ、AutoAWQ等工具进行模型量化。了解TensorRT-LLM的核心优化技术：层融合（Layer Fusion）、内核自动调优。掌握vLLM的PagedAttention（分页注意力）解决KV缓存碎片问题的原理。

（11）大模型评估体系：掌握大模型的多维度评估方法。学习传统指标（Perplexity、BLEU、ROUGE）、指令遵循准确率、模型质量评估（MMLU、HumanEval、CEval）。了解LLM-as-a-judge评估方法和NeMo Evaluator工具的使用。通过评估识别模型训练与微调后的性能变化，避免灾难性遗忘。

（12）综合项目实战：垂直领域大模型训练与微调：结合所学知识，完成一个完整的垂直领域大模型项目（如医疗问答模型微调、法律文书生成模型、金融研报分析助手）。涵盖数据准备、模型选型、LoRA/QLoRA微调、分布式训练配置、性能评估、量化优化的全流程，形成规范的模型训练与微调项目报告。

如果您想学习本课程，请预约报名
如果没找到合适的课程或有特殊培训需求，请订制培训
除培训外，同时提供相关技术咨询与技术支持服务，有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点：
海量专家资源，精准匹配相关行业，相关项目专家，针对实际需求，顾问式咨询，互动式授课，案例教学，小班授课，实际项目演示，快捷高效，省时省力省钱。

专家力量：
中国科学院软件研究所，计算研究所高级研究人员
oracle,微软，vmware，MSC,Ansys，candence,Altium,达索等大型公司高级工程师，项目经理，技术支持专家
中科信软培训中心，资深专家或讲师
大多名牌大学，硕士以上学历，相关技术专业，理论素养丰富
多年实际项目经历，大型项目实战案例，热情，乐于技术分享
针对客户实际需求，案例教学，互动式沟通，学有所获

报名表下载

点击进入报名表

联系我们更多>>

咨询电话：010-62883247

4007991916

咨询邮箱：soft@info-soft.cn

微信咨询

随时听讲课

聚焦技术实践