大模型本地化部署与训练微调RAG培训课程-中科信软培训中心

课程培训

数据方向培训

大厂培训

业务与运营

科学计算与工程仿真

机械设计培训

CFD培训

CAE培训

其它

设计方向

软考类

大模型本地化部署与训练微调RAG培训课程

大模型本地化部署与训练微调RAG培训课程大纲

培训对象：
适合具备Python编程基础、熟悉Linux操作系统，了解深度学习基本概念，希望系统掌握大模型本地化部署、微调训练与RAG应用开发的算法工程师、AI应用开发者、IT架构师及企业技术负责人。
培训目标：
完成本课程后，学员将能够深入理解大模型本地化部署的技术架构与硬件选型策略，熟练掌握Ollama、vLLM、LlamaFactory等主流部署与微调工具的使用，掌握LoRA、QLoRA等参数高效微调技术的实战方法，具备从零构建企业级RAG系统的完整工程能力，能够独立完成大模型的本地化部署、垂直领域微调和知识库问答应用开发。
培训内容：
（1）大模型本地化部署概述与硬件选型：了解大模型本地化部署的核心价值（数据安全、隐私保护、成本控制、离线可用）及其适用场景。掌握不同规模模型（7B、13B、70B）对硬件资源的需求分析：显存、内存、存储、CPU核心数。学习GPU选型策略（NVIDIA消费级、数据中心级、国产算力）与性价比对比。理解量化技术（INT8、INT4、GPTQ、AWQ）对硬件需求的影响。

（2）开发环境搭建与基础工具链：掌握Linux（Ubuntu）系统的环境配置方法，安装Python、CUDA、cuDNN、PyTorch等基础依赖。学习Docker容器化环境的配置与使用，实现开发环境的一键部署。熟悉常用模型格式（PyTorch、Safetensors、GGUF）的特点与转换方法。了解Hugging Face生态工具（Transformers、Accelerate、PEFT）的基本用法。

（3）Ollama本地部署与模型管理：掌握Ollama的安装与配置方法，理解其在本地模型管理中的核心优势。学习使用Ollama拉取和运行主流开源模型（Llama、Qwen、DeepSeek、Mistral）。掌握模型文件的创建与自定义配置（温度、上下文长度、GPU层数）。学习Ollama API的调用方法，实现与应用程序的集成。实践部署一个完整的本地聊天应用。

（4）vLLM高性能推理引擎：深入理解vLLM的核心优化技术：PagedAttention（分页注意力）、连续批处理、CUDA核心优化。掌握vLLM的安装与配置，学习启动OpenAI兼容的API服务。对比vLLM与传统推理框架（Transformers、Text Generation Inference）的性能差异。实践使用vLLM部署高并发推理服务，掌握吞吐量与延迟的优化方法。

（5）模型量化技术与推理加速：掌握模型量化的核心原理，理解不同量化精度（FP16、INT8、INT4、NF4）对模型性能和推理速度的影响。学习使用AutoGPTQ、AutoAWQ等工具进行模型量化。掌握GGUF格式的特点及其在CPU推理中的应用（llama.cpp）。实践对开源模型进行量化处理，对比量化前后的显存占用与推理速度。

（6）LoRA与QLoRA参数高效微调：深入理解LoRA（低秩适配）的核心原理及其在大模型微调中的优势。学习LoRA的数学推导与实现机制（低秩矩阵分解、适配器矩阵设计）。掌握QLoRA的量化权重与梯度更新机制，实现在单GPU上微调大模型。学习微调数据集的准备与格式化（Alpaca格式、ShareGPT格式）。实践使用LlamaFactory对开源模型进行垂直领域微调。

（7）LlamaFactory微调工具实战：掌握LlamaFactory的安装与配置，理解其一体化微调平台的设计思想。学习使用LlamaFactory进行全参数微调、LoRA微调、QLoRA微调的参数配置。掌握监督微调（SFT）与DPO偏好优化的实现方法。学习多GPU微调的配置技巧。实践使用LlamaFactory完成一个完整的医学问答模型微调项目。

（8）DeepSpeed与分布式训练：了解DeepSpeed的核心优化技术：ZeRO（零冗余优化器）三个阶段（Stage1/2/3）的原理与适用场景。学习使用DeepSpeed进行多GPU/多节点分布式训练的配置方法。掌握梯度累积、混合精度训练等优化技巧。实践使用DeepSpeed在单机多卡环境下微调大模型，对比不同ZeRO阶段的显存占用与训练效率。

（9）RAG技术原理与架构设计：深入理解RAG（检索增强生成）的核心架构（索引-检索-增强-生成）及其在解决模型幻觉、知识时效性问题中的核心价值。学习RAG系统的完整工作流程：文档加载、文本分块、向量化、索引构建、相似度检索、提示词增强、生成回答。掌握RAG与模型微调的适用场景对比与协同应用策略。

（10）向量数据库与检索优化：掌握向量数据库的核心概念与主流产品选型（FAISS、Chroma、Milvus、Qdrant、Weaviate）。学习文档分块策略的设计与优化：固定大小分块、语义分块、递归分块。掌握嵌入模型（Embedding Models）的选型与本地化部署。学习混合检索策略（稠密检索+稀疏检索BM25）与重排序（Re-ranking）技术的实现。实践构建一个高性能的知识库检索系统。

（11）RAG应用开发与LangChain实战：掌握LangChain/LlamaIndex框架的核心组件与使用方法。学习文档加载器、文本分割器、向量存储、检索器、提示词模板的链式组装。掌握RAG应用的评估方法与优化技巧，包括检索质量评估（召回率、精确率）和生成质量评估（忠实度、相关性）。实践使用LangChain构建一个企业知识库问答机器人。

（12）综合项目实战：企业级知识问答系统：结合所学知识，完成一个完整的企业级大模型应用项目（如企业内部文档智能问答系统、医疗领域知识助手、金融研报分析平台）。涵盖硬件环境评估、模型选型与量化部署、垂直领域微调、RAG知识库构建、检索优化、应用集成与性能测试的全流程，形成规范的大模型项目报告。<｜end▁of▁thinking｜>### 大模型本地化部署与训练微调RAG培训课程大纲
培训对象：适合具备Python编程基础、熟悉Linux操作系统，了解深度学习基本概念，希望系统掌握大模型本地化部署、微调训练与RAG应用开发的算法工程师、AI应用开发者、IT架构师及企业技术负责人。
培训目标：完成本课程后，学员将能够深入理解大模型本地化部署的技术架构与硬件选型策略，熟练掌握Ollama、vLLM、LlamaFactory等主流部署与微调工具的使用，掌握LoRA、QLoRA等参数高效微调技术的实战方法，具备从零构建企业级RAG系统的完整工程能力，能够独立完成大模型的本地化部署、垂直领域微调和知识库问答应用开发。
培训内容：
（1）大模型本地化部署概述与硬件选型：了解大模型本地化部署的核心价值（数据安全、隐私保护、成本控制、离线可用）及其适用场景。掌握不同规模模型（7B、13B、70B）对硬件资源的需求分析：显存、内存、存储、CPU核心数。学习GPU选型策略（NVIDIA消费级、数据中心级、国产算力）与性价比对比。理解量化技术（INT8、INT4、GPTQ、AWQ）对硬件需求的影响。

（2）开发环境搭建与基础工具链：掌握Linux（Ubuntu）系统的环境配置方法，安装Python、CUDA、cuDNN、PyTorch等基础依赖。学习Docker容器化环境的配置与使用，实现开发环境的一键部署。熟悉常用模型格式（PyTorch、Safetensors、GGUF）的特点与转换方法。了解Hugging Face生态工具（Transformers、Accelerate、PEFT）的基本用法。

（3）Ollama本地部署与模型管理：掌握Ollama的安装与配置方法，理解其在本地模型管理中的核心优势。学习使用Ollama拉取和运行主流开源模型（Llama、Qwen、DeepSeek、Mistral）。掌握模型文件的创建与自定义配置（温度、上下文长度、GPU层数）。学习Ollama API的调用方法，实现与应用程序的集成。实践部署一个完整的本地聊天应用。

（4）vLLM高性能推理引擎：深入理解vLLM的核心优化技术：PagedAttention（分页注意力）、连续批处理、CUDA核心优化。掌握vLLM的安装与配置，学习启动OpenAI兼容的API服务。对比vLLM与传统推理框架（Transformers、Text Generation Inference）的性能差异。实践使用vLLM部署高并发推理服务，掌握吞吐量与延迟的优化方法。

（5）模型量化技术与推理加速：掌握模型量化的核心原理，理解不同量化精度（FP16、INT8、INT4、NF4）对模型性能和推理速度的影响。学习使用AutoGPTQ、AutoAWQ等工具进行模型量化。掌握GGUF格式的特点及其在CPU推理中的应用（llama.cpp）。实践对开源模型进行量化处理，对比量化前后的显存占用与推理速度。

（6）LoRA与QLoRA参数高效微调：深入理解LoRA（低秩适配）的核心原理及其在大模型微调中的优势。学习LoRA的数学推导与实现机制（低秩矩阵分解、适配器矩阵设计）。掌握QLoRA的量化权重与梯度更新机制，实现在单GPU上微调大模型。学习微调数据集的准备与格式化（Alpaca格式、ShareGPT格式）。实践使用LlamaFactory对开源模型进行垂直领域微调。

（7）LlamaFactory微调工具实战：掌握LlamaFactory的安装与配置，理解其一体化微调平台的设计思想。学习使用LlamaFactory进行全参数微调、LoRA微调、QLoRA微调的参数配置。掌握监督微调（SFT）与DPO偏好优化的实现方法。学习多GPU微调的配置技巧。实践使用LlamaFactory完成一个完整的医学问答模型微调项目。

（8）DeepSpeed与分布式训练：了解DeepSpeed的核心优化技术：ZeRO（零冗余优化器）三个阶段（Stage1/2/3）的原理与适用场景。学习使用DeepSpeed进行多GPU/多节点分布式训练的配置方法。掌握梯度累积、混合精度训练等优化技巧。实践使用DeepSpeed在单机多卡环境下微调大模型，对比不同ZeRO阶段的显存占用与训练效率。

（9）RAG技术原理与架构设计：深入理解RAG（检索增强生成）的核心架构（索引-检索-增强-生成）及其在解决模型幻觉、知识时效性问题中的核心价值。学习RAG系统的完整工作流程：文档加载、文本分块、向量化、索引构建、相似度检索、提示词增强、生成回答。掌握RAG与模型微调的适用场景对比与协同应用策略。

（10）向量数据库与检索优化：掌握向量数据库的核心概念与主流产品选型（FAISS、Chroma、Milvus、Qdrant、Weaviate）。学习文档分块策略的设计与优化：固定大小分块、语义分块、递归分块。掌握嵌入模型（Embedding Models）的选型与本地化部署。学习混合检索策略（稠密检索+稀疏检索BM25）与重排序（Re-ranking）技术的实现。实践构建一个高性能的知识库检索系统。

（11）RAG应用开发与LangChain实战：掌握LangChain/LlamaIndex框架的核心组件与使用方法。学习文档加载器、文本分割器、向量存储、检索器、提示词模板的链式组装。掌握RAG应用的评估方法与优化技巧，包括检索质量评估（召回率、精确率）和生成质量评估（忠实度、相关性）。实践使用LangChain构建一个企业知识库问答机器人。

（12）综合项目实战：企业级知识问答系统：结合所学知识，完成一个完整的企业级大模型应用项目（如企业内部文档智能问答系统、医疗领域知识助手、金融研报分析平台）。涵盖硬件环境评估、模型选型与量化部署、垂直领域微调、RAG知识库构建、检索优化、应用集成与性能测试的全流程，形成规范的大模型项目报告。

如果您想学习本课程，请预约报名
如果没找到合适的课程或有特殊培训需求，请订制培训
除培训外，同时提供相关技术咨询与技术支持服务，有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点：
海量专家资源，精准匹配相关行业，相关项目专家，针对实际需求，顾问式咨询，互动式授课，案例教学，小班授课，实际项目演示，快捷高效，省时省力省钱。

专家力量：
中国科学院软件研究所，计算研究所高级研究人员
oracle,微软，vmware，MSC,Ansys，candence,Altium,达索等大型公司高级工程师，项目经理，技术支持专家
中科信软培训中心，资深专家或讲师
大多名牌大学，硕士以上学历，相关技术专业，理论素养丰富
多年实际项目经历，大型项目实战案例，热情，乐于技术分享
针对客户实际需求，案例教学，互动式沟通，学有所获

报名表下载

点击进入报名表

联系我们更多>>

咨询电话：010-62883247

4007991916

咨询邮箱：soft@info-soft.cn

微信咨询

随时听讲课

聚焦技术实践