课程培训
大模型部署:vLLM/TGI推理加速与私有化培训课程

大模型部署:vLLM/TGI推理加速与私有化培训课程

  •  

  • 培训对象: AI运维工程师、大模型应用开发者、算法工程师、需要私有化部署大模型的技术人员。

  •  

  • 培训目标:

    • 理解大模型推理的性能瓶颈和优化策略。

    • 掌握vLLM的PagedAttention原理和部署方法。

    • 熟练使用TGI(Text Generation Inference)部署大模型。

    • 具备大模型量化、并发优化和监控运维能力。

  •  

  • 培训内容介绍:

  •  

    一、 大模型推理挑战与优化策略: 分析大模型推理的内存瓶颈、计算瓶颈,介绍KV缓存、连续批处理等优化技术。

    二、 vLLM核心原理-PagedAttention: 深入理解PagedAttention如何解决显存碎片化问题,提升推理吞吐量。

    三、 vLLM安装与部署: 安装vLLM,加载LLaMA、Qwen等模型,配置并发参数和最大输入长度。

    四、 vLLM API服务化: 使用vLLM启动OpenAI兼容的API服务,配置并发请求队列和超时策略。

    五、 vLLM性能调优: 调整批处理大小、最大并行请求数,监控显存使用和推理延迟,优化吞吐量。

    六、 TGI架构与特性: 了解HuggingFace TGI的架构设计,掌握其连续批处理、张量并行、模型分片等特性。

    七、 TGI部署实战: 使用Docker部署TGI服务,加载各种大模型,配置环境变量和启动参数。

    八、 模型量化技术: 使用GPTQ、AWQ、GGUF等量化技术压缩模型,降低显存需求,提升推理速度。

    九、 量化模型部署: 在vLLM/TGI中加载量化模型,对比量化前后的精度和性能差异。

    十、 多GPU并行推理: 配置张量并行(Tensor Parallelism)在多张GPU上分布模型,支持更大模型部署。

    十一、 监控与日志管理: 使用Prometheus+Grafana监控推理服务指标(QPS、延迟、显存),配置告警规则。

    十二、 实战项目:企业级大模型私有化部署: 根据企业需求选择模型,使用vLLM或TGI部署高并发推理服务,提供API供业务调用。





如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>