SRE（站点可靠性工程）实战培训（高可用架构与故障排查）-中科信软培训中心

SRE（站点可靠性工程）实战培训（高可用架构与故障排查

SRE（站点可靠性工程）实战培训（高可用架构与故障排查）

【培训对象】
运维工程师、SRE工程师、系统架构师、DevOps团队成员，负责保障系统稳定性和高可用性的技术人员。
【培训目标】
一、深入理解SRE的核心价值观和实践方法论，能够用量化指标（SLI/SLO）定义服务质量。
二、掌握高可用架构的设计原则和关键技术，包括负载均衡、容灾多活、限流降级等。
三、具备系统性故障排查能力，能够快速定位和解决生产环境复杂问题，缩短故障恢复时间（MTTR）。
四、能够设计和实施混沌工程实验，主动发现系统弱点，提升系统韧性。
【培训内容介绍】
一、 SRE核心概念与实践：SRE定义、与传统运维的区别、Google SRE图书精要、错误预算（Error Budget）机制。
二、服务水平指标（SLI）与目标（SLO）：SLI定义方法（延迟/吞吐量/错误率/饱和度）、SLO设定原则、错误预算计算。
三、高可用架构设计原则：消除单点故障、无状态设计、冗余部署、故障隔离、优雅降级。
四、负载均衡与流量调度：四层/七层负载均衡、DNS轮询、全局流量管理（GTM）、会话保持策略。
五、容灾与多活架构：同城双活、异地多活、主备切换、数据复制与一致性保证。
六、限流、熔断与降级：限流算法（令牌桶/漏桶）、分布式限流、熔断器模式（Hystrix/Sentinel）、降级策略设计。
七、故障排查方法论：黄金指标（延迟/流量/错误/饱和度）、日志分析、链路追踪、线程Dump分析。
八、网络故障排查：TCP/IP协议栈、抓包分析（tcpdump/Wireshark）、DNS解析问题排查。
九、应用性能排查：慢SQL分析、JVM调优、内存泄漏排查、CPU飙高分析。
十、混沌工程实践：混沌工程原则、故障注入实验设计（网络延迟/节点宕机/磁盘满）、Chaos Mesh/ChaosBlade使用。
十一、容量规划与弹性伸缩：压测方法、容量评估模型、HPA/VPA配置、资源利用率优化。
十二、实战演练：模拟生产环境故障，进行全流程的故障排查、定位和恢复演练，并完成事后复盘分析。

如果您想学习本课程，请预约报名
如果没找到合适的课程或有特殊培训需求，请订制培训
除培训外，同时提供相关技术咨询与技术支持服务，有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点：
海量专家资源，精准匹配相关行业，相关项目专家，针对实际需求，顾问式咨询，互动式授课，案例教学，小班授课，实际项目演示，快捷高效，省时省力省钱。

专家力量：
中国科学院软件研究所，计算研究所高级研究人员
oracle,微软，vmware，MSC,Ansys，candence,Altium,达索等大型公司高级工程师，项目经理，技术支持专家
中科信软培训中心，资深专家或讲师
大多名牌大学，硕士以上学历，相关技术专业，理论素养丰富
多年实际项目经历，大型项目实战案例，热情，乐于技术分享
针对客户实际需求，案例教学，互动式沟通，学有所获