课程培训
大模型部署与工程化培训课程

大模型部署与工程化培训课程大纲

  •  

  • 培训对象

  • 适合具备Python编程基础,了解大模型基本概念,希望系统掌握大模型生产级部署、性能优化与工程化落地核心技术的算法工程师、AI应用开发者、DevOps工程师、技术架构师及计算机相关专业学生。

  •  

  • 培训目标

  • 完成本课程后,学员将能够深入理解大模型部署与工程化的完整技术体系,熟练掌握主流推理引擎(vLLM、TensorRT-LLM、TGI)的配置与优化方法,掌握模型量化、蒸馏、剪枝等压缩技术,具备构建高并发、低延迟推理服务的能力,熟悉Kubernetes云原生部署方案与GPU资源调度策略,了解服务监控、A/B测试、安全防护等生产级工程实践,能够独立完成从模型训练完成到生产环境上线的全流程工程化交付。

  •  

  • 培训内容


  • (1)大模型工程化概述与部署架构:了解大模型从实验室到生产环境的工程化挑战:显存瓶颈、推理延迟、并发吞吐、成本控制。掌握大模型部署的多种架构模式:云端API服务、本地私有化部署、边缘端部署的适用场景与权衡。学习大模型服务的技术栈全景图,理解模型优化、推理引擎、服务框架、运维监控的完整链条。分析主流大模型(Llama、Qwen、DeepSeek)在不同硬件上的部署性能特征。

    (2)模型量化与压缩技术:掌握模型量化的核心原理,理解对称量化与非对称量化、动态量化与静态量化的技术差异。学习不同量化精度(FP16、INT8、INT4、NF4、GPTQ、AWQ)对模型性能和推理速度的影响。实践使用AutoGPTQ、AutoAWQ等工具对开源模型进行量化处理。了解模型蒸馏(Knowledge Distillation)与剪枝(Pruning)的基本原理及其在边缘部署中的应用。通过实验对比量化前后的显存占用、推理速度与精度损失。

    (3)vLLM高性能推理引擎:深入理解vLLM的核心优化技术:PagedAttention(分页注意力)解决KV缓存碎片问题、连续批处理(Continuous Batching)提升吞吐量、CUDA核心优化。掌握vLLM的安装与配置,学习启动OpenAI兼容的API服务。对比vLLM与传统推理框架(HuggingFace Transformers、Text Generation Inference)的性能差异。实践使用vLLM部署高并发推理服务,掌握吞吐量(Throughput)与延迟(Latency)的优化方法。

    (4)TensorRT-LLM与NVIDIA生态:了解TensorRT-LLM作为NVIDIA官方推理引擎的架构优势。学习TensorRT-LLM的核心优化技术:层融合(Layer Fusion)、内核自动调优、多精度支持。掌握将HuggingFace模型转换为TensorRT引擎的完整流程。实践使用TensorRT-LLM部署LLaMA/Qwen模型,对比与vLLM的性能差异。了解TensorRT-LLM在多GPU环境下的并行推理配置。

    (5)推理服务框架与API设计:掌握主流推理服务框架的选型与使用:TGI(Text Generation Inference)、FastChat、LocalAI的对比分析。学习使用FastAPI构建自定义推理服务,集成模型加载、请求处理、结果返回的完整逻辑。掌握流式输出(Streaming Output)的实现方法,提升用户体验。设计符合RESTful规范的API接口,支持批量推理、异步处理等高级功能。

    (6)分布式推理与多卡并行:理解大模型在多GPU环境下的推理并行策略:张量并行(Tensor Parallelism)、流水线并行(Pipeline Parallelism)。学习使用vLLM的分布式推理功能,配置张量并行度实现多卡协同。了解模型并行与数据并行的适用场景差异。实践在单机多卡环境下部署70B级别大模型,分析显存占用与推理性能的权衡。

    (7)Kubernetes云原生部署:掌握使用Docker容器化大模型推理服务的完整流程,编写优化Dockerfile减小镜像体积。学习在Kubernetes集群中部署推理服务,配置Pod资源限制(CPU、内存、GPU)。掌握使用Horizontal Pod Autoscaler(HPA)实现基于QPS的自动扩缩容。实践部署完整的推理服务到K8s集群,配置Service、Ingress对外暴露API。

    (8)GPU资源调度与共享:了解Kubernetes对GPU资源的管理机制,学习配置NVIDIA Device Plugin实现GPU调度。掌握GPU共享技术:使用MIG(多实例GPU)或Time-Slicing实现多任务共享GPU。学习使用Volcano、Koordinator等批调度器优化AI工作负载的资源分配。实践配置GPU资源配额与优先级调度。

    (9)服务监控与可观测性:掌握推理服务的监控体系构建:使用Prometheus采集性能指标(QPS、延迟、错误率、GPU利用率)。学习使用Grafana构建可视化监控看板,实时掌握服务状态。掌握日志收集与分析方案:使用ELK/EFK Stack聚合推理日志。实践配置关键指标的告警规则(如P99延迟超限、错误率上升)。

    (10)性能测试与A/B测试:学习使用性能测试工具(如locust、wrk、vegeta)对推理服务进行压力测试,分析不同并发下的性能表现。掌握服务容量评估方法,根据QPS要求规划硬件资源。了解A/B测试在模型迭代中的应用:部署多版本模型服务,配置流量切分策略,对比新旧版本的业务指标。

    (11)安全防护与合规实践:掌握推理服务的常见安全威胁:DDoS攻击、模型窃取、提示注入。学习部署API网关实现认证授权、限流熔断、IP黑白名单。了解数据隐私保护技术:输入输出脱敏、数据加密传输。掌握模型版权保护方法:模型加密、水印技术。学习国内大模型落地的合规要求:算法备案、安全评估、内容审核。

    (12)综合项目实战:企业级大模型服务部署:结合所学知识,完成一个完整的企业级大模型部署项目(如智能客服系统后端、RAG问答服务、代码生成API)。涵盖模型量化优化、推理引擎选型、K8s云原生部署、自动扩缩容配置、监控告警体系搭建、安全防护措施的完整流程,形成规范的部署架构文档与运维手册。





如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>