(1)大模型工程化概述与部署架构:了解大模型从实验室到生产环境的工程化挑战:显存瓶颈、推理延迟、并发吞吐、成本控制。掌握大模型部署的多种架构模式:云端API服务、本地私有化部署、边缘端部署的适用场景与权衡。学习大模型服务的技术栈全景图,理解模型优化、推理引擎、服务框架、运维监控的完整链条。分析主流大模型(Llama、Qwen、DeepSeek)在不同硬件上的部署性能特征。
(2)模型量化与压缩技术:掌握模型量化的核心原理,理解对称量化与非对称量化、动态量化与静态量化的技术差异。学习不同量化精度(FP16、INT8、INT4、NF4、GPTQ、AWQ)对模型性能和推理速度的影响。实践使用AutoGPTQ、AutoAWQ等工具对开源模型进行量化处理。了解模型蒸馏(Knowledge Distillation)与剪枝(Pruning)的基本原理及其在边缘部署中的应用。通过实验对比量化前后的显存占用、推理速度与精度损失。
(3)vLLM高性能推理引擎:深入理解vLLM的核心优化技术:PagedAttention(分页注意力)解决KV缓存碎片问题、连续批处理(Continuous Batching)提升吞吐量、CUDA核心优化。掌握vLLM的安装与配置,学习启动OpenAI兼容的API服务。对比vLLM与传统推理框架(HuggingFace Transformers、Text Generation Inference)的性能差异。实践使用vLLM部署高并发推理服务,掌握吞吐量(Throughput)与延迟(Latency)的优化方法。
(4)TensorRT-LLM与NVIDIA生态:了解TensorRT-LLM作为NVIDIA官方推理引擎的架构优势。学习TensorRT-LLM的核心优化技术:层融合(Layer Fusion)、内核自动调优、多精度支持。掌握将HuggingFace模型转换为TensorRT引擎的完整流程。实践使用TensorRT-LLM部署LLaMA/Qwen模型,对比与vLLM的性能差异。了解TensorRT-LLM在多GPU环境下的并行推理配置。
(5)推理服务框架与API设计:掌握主流推理服务框架的选型与使用:TGI(Text Generation Inference)、FastChat、LocalAI的对比分析。学习使用FastAPI构建自定义推理服务,集成模型加载、请求处理、结果返回的完整逻辑。掌握流式输出(Streaming Output)的实现方法,提升用户体验。设计符合RESTful规范的API接口,支持批量推理、异步处理等高级功能。
(6)分布式推理与多卡并行:理解大模型在多GPU环境下的推理并行策略:张量并行(Tensor Parallelism)、流水线并行(Pipeline Parallelism)。学习使用vLLM的分布式推理功能,配置张量并行度实现多卡协同。了解模型并行与数据并行的适用场景差异。实践在单机多卡环境下部署70B级别大模型,分析显存占用与推理性能的权衡。
(7)Kubernetes云原生部署:掌握使用Docker容器化大模型推理服务的完整流程,编写优化Dockerfile减小镜像体积。学习在Kubernetes集群中部署推理服务,配置Pod资源限制(CPU、内存、GPU)。掌握使用Horizontal Pod Autoscaler(HPA)实现基于QPS的自动扩缩容。实践部署完整的推理服务到K8s集群,配置Service、Ingress对外暴露API。
(8)GPU资源调度与共享:了解Kubernetes对GPU资源的管理机制,学习配置NVIDIA Device Plugin实现GPU调度。掌握GPU共享技术:使用MIG(多实例GPU)或Time-Slicing实现多任务共享GPU。学习使用Volcano、Koordinator等批调度器优化AI工作负载的资源分配。实践配置GPU资源配额与优先级调度。
(9)服务监控与可观测性:掌握推理服务的监控体系构建:使用Prometheus采集性能指标(QPS、延迟、错误率、GPU利用率)。学习使用Grafana构建可视化监控看板,实时掌握服务状态。掌握日志收集与分析方案:使用ELK/EFK Stack聚合推理日志。实践配置关键指标的告警规则(如P99延迟超限、错误率上升)。
(10)性能测试与A/B测试:学习使用性能测试工具(如locust、wrk、vegeta)对推理服务进行压力测试,分析不同并发下的性能表现。掌握服务容量评估方法,根据QPS要求规划硬件资源。了解A/B测试在模型迭代中的应用:部署多版本模型服务,配置流量切分策略,对比新旧版本的业务指标。
(11)安全防护与合规实践:掌握推理服务的常见安全威胁:DDoS攻击、模型窃取、提示注入。学习部署API网关实现认证授权、限流熔断、IP黑白名单。了解数据隐私保护技术:输入输出脱敏、数据加密传输。掌握模型版权保护方法:模型加密、水印技术。学习国内大模型落地的合规要求:算法备案、安全评估、内容审核。
(12)综合项目实战:企业级大模型服务部署:结合所学知识,完成一个完整的企业级大模型部署项目(如智能客服系统后端、RAG问答服务、代码生成API)。涵盖模型量化优化、推理引擎选型、K8s云原生部署、自动扩缩容配置、监控告警体系搭建、安全防护措施的完整流程,形成规范的部署架构文档与运维手册。