大模型原理与实战培训课程大纲
-
-
培训对象:
-
适合具备Python编程基础,了解机器学习基本概念,希望系统掌握大语言模型核心技术原理、开发方法与工程化实践的算法工程师、AI应用开发者、科研人员、技术架构师及计算机相关专业学生。
-
-
培训目标:
-
完成本课程后,学员将能够深入理解大语言模型的核心架构(Transformer、自注意力机制、MoE)与训练全流程(预训练、微调、对齐),熟练掌握模型开发的主流框架与工具(HuggingFace、LangChain、vLLM、LlamaFactory),掌握提示词工程、检索增强生成(RAG)、智能体(Agent)、模型微调与量化部署等关键工程能力,具备独立完成从数据处理、模型选型、应用开发到生产部署的完整大模型项目经验。
-
-
培训内容:
-
(1)大模型概述与技术演进:了解大语言模型的发展历程(从统计语言模型到神经概率模型,再到Transformer架构)。掌握大模型的核心定义与技术特征:参数规模、涌现能力、上下文学习。学习大模型的主要分类:仅编码器架构(BERT)、仅解码器架构(GPT系列)、编码器-解码器架构(T5、BART)的设计理念与适用场景差异。分析大模型技术生态现状与未来趋势,包括开源模型(Llama、Qwen、DeepSeek)与闭源模型(GPT-4、Claude)的对比选型。
-
(2)Transformer架构深度解析:深入理解Transformer架构的核心技术逻辑,掌握自注意力机制(Self-Attention)的数学原理、计算过程与作用。学习多头注意力(Multi-Head Attention)的并行计算机制、位置编码(Positional Encoding)的设计思想(正弦编码、RoPE旋转位置编码)。掌握编码器(Encoder)与解码器(Decoder)的架构差异,理解BERT与GPT的技术路线区别。通过代码实现验证对各模块的理解。
-
(3)大模型预训练技术体系:掌握大模型预训练的完整流程:数据工程、模型架构、训练策略。学习预训练数据源的获取与处理方法:通用数据(网页、书籍)与专业数据(论文、代码)的清洗、去重、过滤。理解预训练任务的设计:自回归语言建模(GPT)、掩码语言建模(BERT)。掌握分布式训练技术:数据并行、张量并行、流水线并行的原理与适用场景。
-
(4)数据集预处理与构建:掌握大模型数据预处理的核心技术,理解数据质量对模型性能的决定性影响。学习数据集类型与来源:通用数据与专业数据的获取策略。掌握数据格式规范:问答格式(QA Pairs)、对话格式(Conversational Format)、指令微调格式(LLaMaFactory/Alpaca)、通用结构化格式(JSON/JSONL)。学习数据清洗、分块、标注与存储的完整流程。
-
(5)提示词工程高级技巧:掌握提示词(Prompt)的核心设计原则与高级技巧。学习思维链(Chain-of-Thought)、思维树(Tree-of-Thoughts)引导模型展示推理过程的方法。掌握指令调优方法论:逐步细化指令、设定约束条件、少样本示例。了解结构化提示、角色代入、多轮对话等复杂场景的设计策略。实践构建覆盖常见应用场景的Prompt模板库。
-
(6)高效微调技术实战:深入理解全参数微调与参数高效微调的适用场景差异。掌握LoRA(低秩适配)的核心原理:低秩矩阵分解、适配器矩阵设计、缩放系数配置。学习QLoRA的量化权重与梯度更新机制,实现在单GPU上微调大模型。掌握P-Tuning、Adapter、Prefix Tuning等其他PEFT方法的特点。实践使用LlamaFactory/LLaMA-Factory对开源模型进行垂直领域微调。
-
(7)RLHF与模型对齐技术:理解大模型与人类价值观对齐的必要性。掌握RLHF(基于人类反馈的强化学习)的三阶段流程:监督微调(SFT)、奖励模型训练(RM)、近端策略优化(PPO)。学习DPO(直接偏好优化)的简化实现原理。了解对齐过程中的安全挑战:偏见消除、有害内容过滤。
-
(8)RAG系统原理与构建:深入理解RAG(检索增强生成)的核心架构(索引-检索-增强-生成)及其在解决模型幻觉、知识时效性问题中的核心价值。学习RAG系统的完整工作流程:文档加载、文本分块、向量化、索引构建、相似度检索、提示词增强、生成回答。掌握向量数据库的核心概念与主流产品选型(FAISS、Chroma、Milvus、Qdrant)。学习混合检索策略(稠密检索+稀疏检索BM25)与重排序(Re-ranking)技术的实现。
-
(9)智能体(Agent)技术实战:掌握智能体的核心架构(感知-规划-记忆-执行)及其自主决策能力。学习单智能体与多智能体系统的设计模式(ReAct、Reflection)。掌握工具调用机制(Function Calling/Tool Use)的实现方法,让Agent执行外部工具(代码解释器、API调用、数据库查询)。学习记忆管理策略:短期记忆(上下文窗口)与长期记忆(向量数据库)结合。实践使用LangGraph/CrewAI构建多智能体协作系统。
-
(10)LangChain应用开发框架:掌握LangChain框架的核心组件与使用方法。学习文档加载器、文本分割器、向量存储、检索器、提示词模板的链式组装。深入理解Chains模块:LLMChain、SimpleSequentialChain、SequentialChain、RouterChain。掌握Conversational Memory机制:ConversationBufferMemory、ConversationSummaryMemory、EntityMemory等。实践使用LangChain构建企业知识库问答机器人。
-
(11)模型量化与推理优化:掌握模型量化的核心原理,理解不同量化精度(FP16、INT8、INT4、NF4)对模型性能和推理速度的影响。学习使用AutoGPTQ、AutoAWQ等工具进行模型量化。掌握vLLM的核心优化技术:PagedAttention(分页注意力)、连续批处理、CUDA核心优化。学习TensorRT-LLM的部署优化。实践使用vLLM部署高并发推理服务。
-
(12)综合项目实战:企业级大模型应用开发:结合所学知识,完成一个完整的企业级大模型应用项目(如金融领域智能投研助手、医疗知识问答系统、企业知识库智能客服、多模态内容生成平台)。涵盖需求分析、数据工程、模型选型与微调、RAG系统构建、智能体开发、性能优化、部署上线的全流程,形成规范的大模型项目报告。
如果您想学习本课程,请
预约报名
如果没找到合适的课程或有特殊培训需求,请
订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请
服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。
专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获