(1)大模型概述与技术演进:了解大模型的发展历程、核心定义与技术特征(参数规模、训练数据量、涌现能力)。掌握大模型的主要类型:GPT系列(自回归)、BERT系列(自编码)、T5系列(编码器-解码器)、Llama系列等开源模型的对比与选型。理解大模型"智能"的本质:参数学习、知识表征、上下文理解。学习大模型应用的发展趋势与产业价值。
(2)Transformer架构深度解析:深入理解Transformer架构的核心技术逻辑,掌握自注意力机制(Self-Attention)的数学原理、计算过程与作用。学习多头注意力(Multi-Head Attention)的并行计算机制、位置编码(Positional Encoding)的设计思想(正弦编码、可学习编码)。掌握编码器(Encoder)与解码器(Decoder)的架构差异,理解BERT与GPT的技术路线区别。了解层归一化、残差连接、前馈网络等组件的设计原理。
(3)大模型训练核心方法:掌握大模型训练的完整流程:预训练(Pre-training)、有监督微调(SFT)、强化学习对齐(RLHF)。理解预训练任务的设计:掩码语言建模(MLM)、下一句预测(NSP)、自回归语言建模。学习训练数据集的构建方法:数据收集、清洗、标注与划分。了解分布式训练技术:数据并行、张量并行、流水线并行的原理与适用场景。
(4)提示词工程高级技巧:掌握提示词(Prompt)的定义、作用与设计原则。学习提示结构的典型构成:背景设定、角色扮演、指令、示例、期望格式。掌握思维链(Chain-of-Thought)与思维树(Tree-of-Thoughts)引导模型展示推理过程的方法。学习指令调优方法论:逐步细化指令、设定约束条件。了解Prompt攻击与防范策略。实践构建基础的Prompt模板库,覆盖常见应用场景。
(5)大模型API调用与集成:掌握主流大模型平台API的调用方法,包括OpenAI、DeepSeek、智谱、文心一言等。理解API调用的请求-响应结构,掌握prompt、temperature、top_p、max_tokens等核心参数的作用与调优方法。学习API调用的错误处理、重试机制与性能优化。实践构建简单的聊天机器人、内容生成工具,理解上下文窗口限制的处理策略。
(6)检索增强生成(RAG)技术:深入理解RAG的核心架构(知识库-检索器-生成器)及其在解决模型幻觉、知识时效性问题中的核心价值。掌握向量表示(Embeddings)的原理与不同嵌入模型(text-embedding-ada-002、BGE系列)的特性。学习向量数据库的选型与使用:FAISS、Chroma、Milvus、Qdrant的对比。掌握检索优化策略:混合检索(BM25+语义检索)、重排序(Re-ranking)机制、分块策略设计。实践基于LangChain/LlamaIndex构建ChatPDF应用。
(7)智能体(Agent)技术:掌握智能体的核心架构(感知-规划-记忆-执行)及其自主决策能力。学习单智能体与多智能体系统的优缺点与适用场景。掌握工具调用机制(Function Calling/Tool Use)的实现方法,让Agent执行外部工具(如Python代码、数据库查询、API调用)。学习记忆管理策略:短期记忆(上下文窗口)与长期记忆(向量数据库)结合。实践基于ReAct框架的智能体实现,构建能够处理多轮对话和复杂指令的对话机器人。
(8)参数高效微调(PEFT)技术:理解全参数微调与参数高效微调的适用场景差异。掌握LoRA(低秩适配)的原理:低秩矩阵分解、适配器矩阵设计。学习QLoRA的量化权重与梯度更新机制,实现大模型的轻量化微调。了解Adapter Tuning、Prefix Tuning、Prompt Tuning等其他PEFT方法的特点。实践使用LoRA微调开源大模型适配特定垂直领域任务。
(9)模型量化与推理优化:掌握模型量化的核心原理,学习将FP32模型转换为INT8/FP8/INT4精度的技术方案。了解量化训练后量化(PTQ)与量化感知训练(QAT)的适用场景。学习主流推理引擎的使用:TensorRT-LLM、vLLM的优化原理(Kernel Fusion、PagedAttention)。掌握模型部署方案对比:云端部署、本地私有化部署、边缘端部署的技术选型。实践使用vLLM部署大模型推理服务。
(10)多模态大模型基础:了解多模态大模型的技术架构与应用场景。学习扩散模型(Diffusion Models)在图像生成中的统治力,掌握Stable Diffusion、DALL-E等文生图模型的基本原理。了解视频生成模型(Sora、可灵AI)的技术进展。学习视觉语言预训练模型(CLIP、BLIP)在图文匹配中的应用。掌握多模态RAG的实现思路,融合图像、表格等非文本内容的知识检索。
(11)大模型评估与安全:掌握大模型的多维度评估体系:困惑度(Perplexity)、BLEU/ROUGE(生成质量)、准确性(任务完成度)、忠实度(Faithfulness)。了解模型评测榜单与行业评测方法。学习大模型的安全风险:提示注入、数据投毒、隐私泄露。掌握模型合规实践:算法备案、内容安全审核、数据脱敏技术。了解国内大模型落地的监管要求与伦理规范。
(12)综合项目实战:结合所学知识,完成一个完整的企业级大模型应用项目(如金融领域智能投研助手、医疗知识问答系统、企业知识库智能客服)。涵盖需求分析、数据处理、RAG系统构建、智能体开发、模型微调、性能优化、部署上线的全流程,形成规范的大模型应用项目报告。