大模型部署与工程化培训课程-中科信软培训中心

课程培训

数据方向培训

大厂培训

业务与运营

科学计算与工程仿真

机械设计培训

CFD培训

CAE培训

其它

设计方向

软考类

大模型部署与工程化培训课程

大模型部署与工程化培训课程大纲

培训对象：
适合具备Python编程基础，了解大模型基本概念，希望系统掌握大模型生产级部署、性能优化与工程化落地核心技术的算法工程师、AI应用开发者、DevOps工程师、技术架构师及计算机相关专业学生。
培训目标
完成本课程后，学员将能够深入理解大模型部署与工程化的完整技术体系，熟练掌握主流推理引擎（vLLM、TensorRT-LLM、TGI）的配置与优化方法，掌握模型量化、蒸馏、剪枝等压缩技术，具备构建高并发、低延迟推理服务的能力，熟悉Kubernetes云原生部署方案与GPU资源调度策略，了解服务监控、A/B测试、安全防护等生产级工程实践，能够独立完成从模型训练完成到生产环境上线的全流程工程化交付。
培训内容：
（1）大模型工程化概述与部署架构：了解大模型从实验室到生产环境的工程化挑战：显存瓶颈、推理延迟、并发吞吐、成本控制。掌握大模型部署的多种架构模式：云端API服务、本地私有化部署、边缘端部署的适用场景与权衡。学习大模型服务的技术栈全景图，理解模型优化、推理引擎、服务框架、运维监控的完整链条。分析主流大模型（Llama、Qwen、DeepSeek）在不同硬件上的部署性能特征。

（2）模型量化与压缩技术：掌握模型量化的核心原理，理解对称量化与非对称量化、动态量化与静态量化的技术差异。学习不同量化精度（FP16、INT8、INT4、NF4、GPTQ、AWQ）对模型性能和推理速度的影响。实践使用AutoGPTQ、AutoAWQ等工具对开源模型进行量化处理。了解模型蒸馏（Knowledge Distillation）与剪枝（Pruning）的基本原理及其在边缘部署中的应用。通过实验对比量化前后的显存占用、推理速度与精度损失。

（3）vLLM高性能推理引擎：深入理解vLLM的核心优化技术：PagedAttention（分页注意力）解决KV缓存碎片问题、连续批处理（Continuous Batching）提升吞吐量、CUDA核心优化。掌握vLLM的安装与配置，学习启动OpenAI兼容的API服务。对比vLLM与传统推理框架（HuggingFace Transformers、Text Generation Inference）的性能差异。实践使用vLLM部署高并发推理服务，掌握吞吐量（Throughput）与延迟（Latency）的优化方法。

（4）TensorRT-LLM与NVIDIA生态：了解TensorRT-LLM作为NVIDIA官方推理引擎的架构优势。学习TensorRT-LLM的核心优化技术：层融合（Layer Fusion）、内核自动调优、多精度支持。掌握将HuggingFace模型转换为TensorRT引擎的完整流程。实践使用TensorRT-LLM部署LLaMA/Qwen模型，对比与vLLM的性能差异。了解TensorRT-LLM在多GPU环境下的并行推理配置。

（5）推理服务框架与API设计：掌握主流推理服务框架的选型与使用：TGI（Text Generation Inference）、FastChat、LocalAI的对比分析。学习使用FastAPI构建自定义推理服务，集成模型加载、请求处理、结果返回的完整逻辑。掌握流式输出（Streaming Output）的实现方法，提升用户体验。设计符合RESTful规范的API接口，支持批量推理、异步处理等高级功能。

（6）分布式推理与多卡并行：理解大模型在多GPU环境下的推理并行策略：张量并行（Tensor Parallelism）、流水线并行（Pipeline Parallelism）。学习使用vLLM的分布式推理功能，配置张量并行度实现多卡协同。了解模型并行与数据并行的适用场景差异。实践在单机多卡环境下部署70B级别大模型，分析显存占用与推理性能的权衡。

（7）Kubernetes云原生部署：掌握使用Docker容器化大模型推理服务的完整流程，编写优化Dockerfile减小镜像体积。学习在Kubernetes集群中部署推理服务，配置Pod资源限制（CPU、内存、GPU）。掌握使用Horizontal Pod Autoscaler（HPA）实现基于QPS的自动扩缩容。实践部署完整的推理服务到K8s集群，配置Service、Ingress对外暴露API。

（8）GPU资源调度与共享：了解Kubernetes对GPU资源的管理机制，学习配置NVIDIA Device Plugin实现GPU调度。掌握GPU共享技术：使用MIG（多实例GPU）或Time-Slicing实现多任务共享GPU。学习使用Volcano、Koordinator等批调度器优化AI工作负载的资源分配。实践配置GPU资源配额与优先级调度。

（9）服务监控与可观测性：掌握推理服务的监控体系构建：使用Prometheus采集性能指标（QPS、延迟、错误率、GPU利用率）。学习使用Grafana构建可视化监控看板，实时掌握服务状态。掌握日志收集与分析方案：使用ELK/EFK Stack聚合推理日志。实践配置关键指标的告警规则（如P99延迟超限、错误率上升）。

（10）性能测试与A/B测试：学习使用性能测试工具（如locust、wrk、vegeta）对推理服务进行压力测试，分析不同并发下的性能表现。掌握服务容量评估方法，根据QPS要求规划硬件资源。了解A/B测试在模型迭代中的应用：部署多版本模型服务，配置流量切分策略，对比新旧版本的业务指标。

（11）安全防护与合规实践：掌握推理服务的常见安全威胁：DDoS攻击、模型窃取、提示注入。学习部署API网关实现认证授权、限流熔断、IP黑白名单。了解数据隐私保护技术：输入输出脱敏、数据加密传输。掌握模型版权保护方法：模型加密、水印技术。学习国内大模型落地的合规要求：算法备案、安全评估、内容审核。

（12）综合项目实战：企业级大模型服务部署：结合所学知识，完成一个完整的企业级大模型部署项目（如智能客服系统后端、RAG问答服务、代码生成API）。涵盖模型量化优化、推理引擎选型、K8s云原生部署、自动扩缩容配置、监控告警体系搭建、安全防护措施的完整流程，形成规范的部署架构文档与运维手册。

如果您想学习本课程，请预约报名
如果没找到合适的课程或有特殊培训需求，请订制培训
除培训外，同时提供相关技术咨询与技术支持服务，有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点：
海量专家资源，精准匹配相关行业，相关项目专家，针对实际需求，顾问式咨询，互动式授课，案例教学，小班授课，实际项目演示，快捷高效，省时省力省钱。

专家力量：
中国科学院软件研究所，计算研究所高级研究人员
oracle,微软，vmware，MSC,Ansys，candence,Altium,达索等大型公司高级工程师，项目经理，技术支持专家
中科信软培训中心，资深专家或讲师
大多名牌大学，硕士以上学历，相关技术专业，理论素养丰富
多年实际项目经历，大型项目实战案例，热情，乐于技术分享
针对客户实际需求，案例教学，互动式沟通，学有所获

报名表下载

点击进入报名表

联系我们更多>>

咨询电话：010-62883247

4007991916

咨询邮箱：soft@info-soft.cn

微信咨询

随时听讲课

聚焦技术实践