大模型部署：vLLM/TGI推理加速与私有化培训课程-中科信软培训中心

大模型部署：vLLM/TGI推理加速与私有化培训课程

培训对象： AI运维工程师、大模型应用开发者、算法工程师、需要私有化部署大模型的技术人员。
培训目标：
- 理解大模型推理的性能瓶颈和优化策略。
- 掌握vLLM的PagedAttention原理和部署方法。
- 熟练使用TGI（Text Generation Inference）部署大模型。
- 具备大模型量化、并发优化和监控运维能力。
培训内容介绍：
一、 大模型推理挑战与优化策略： 分析大模型推理的内存瓶颈、计算瓶颈，介绍KV缓存、连续批处理等优化技术。

二、 vLLM核心原理-PagedAttention： 深入理解PagedAttention如何解决显存碎片化问题，提升推理吞吐量。

三、 vLLM安装与部署： 安装vLLM，加载LLaMA、Qwen等模型，配置并发参数和最大输入长度。

四、 vLLM API服务化： 使用vLLM启动OpenAI兼容的API服务，配置并发请求队列和超时策略。

五、 vLLM性能调优： 调整批处理大小、最大并行请求数，监控显存使用和推理延迟，优化吞吐量。

六、 TGI架构与特性： 了解HuggingFace TGI的架构设计，掌握其连续批处理、张量并行、模型分片等特性。

七、 TGI部署实战： 使用Docker部署TGI服务，加载各种大模型，配置环境变量和启动参数。

八、 模型量化技术： 使用GPTQ、AWQ、GGUF等量化技术压缩模型，降低显存需求，提升推理速度。

九、 量化模型部署： 在vLLM/TGI中加载量化模型，对比量化前后的精度和性能差异。

十、 多GPU并行推理： 配置张量并行（Tensor Parallelism）在多张GPU上分布模型，支持更大模型部署。

十一、 监控与日志管理： 使用Prometheus+Grafana监控推理服务指标（QPS、延迟、显存），配置告警规则。

十二、 实战项目：企业级大模型私有化部署： 根据企业需求选择模型，使用vLLM或TGI部署高并发推理服务，提供API供业务调用。

如果您想学习本课程，请预约报名
如果没找到合适的课程或有特殊培训需求，请订制培训
除培训外，同时提供相关技术咨询与技术支持服务，有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点：
海量专家资源，精准匹配相关行业，相关项目专家，针对实际需求，顾问式咨询，互动式授课，案例教学，小班授课，实际项目演示，快捷高效，省时省力省钱。

专家力量：
中国科学院软件研究所，计算研究所高级研究人员
oracle,微软，vmware，MSC,Ansys，candence,Altium,达索等大型公司高级工程师，项目经理，技术支持专家
中科信软培训中心，资深专家或讲师
大多名牌大学，硕士以上学历，相关技术专业，理论素养丰富
多年实际项目经历，大型项目实战案例，热情，乐于技术分享
针对客户实际需求，案例教学，互动式沟通，学有所获