课程培训
SRE(站点可靠性工程)实战培训(高可用架构与故障排查

SRE(站点可靠性工程)实战培训(高可用架构与故障排查)

  •  

  • 【培训对象】
    运维工程师、SRE工程师、系统架构师、DevOps团队成员,负责保障系统稳定性和高可用性的技术人员。

  •  

  • 【培训目标】
    一、 深入理解SRE的核心价值观和实践方法论,能够用量化指标(SLI/SLO)定义服务质量。
    二、 掌握高可用架构的设计原则和关键技术,包括负载均衡、容灾多活、限流降级等。
    三、 具备系统性故障排查能力,能够快速定位和解决生产环境复杂问题,缩短故障恢复时间(MTTR)。
    四、 能够设计和实施混沌工程实验,主动发现系统弱点,提升系统韧性。

  •  

  • 【培训内容介绍】
    一、 SRE核心概念与实践:SRE定义、与传统运维的区别、Google SRE图书精要、错误预算(Error Budget)机制。
    二、 服务水平指标(SLI)与目标(SLO):SLI定义方法(延迟/吞吐量/错误率/饱和度)、SLO设定原则、错误预算计算。
    三、 高可用架构设计原则:消除单点故障、无状态设计、冗余部署、故障隔离、优雅降级。
    四、 负载均衡与流量调度:四层/七层负载均衡、DNS轮询、全局流量管理(GTM)、会话保持策略。
    五、 容灾与多活架构:同城双活、异地多活、主备切换、数据复制与一致性保证。
    六、 限流、熔断与降级:限流算法(令牌桶/漏桶)、分布式限流、熔断器模式(Hystrix/Sentinel)、降级策略设计。
    七、 故障排查方法论:黄金指标(延迟/流量/错误/饱和度)、日志分析、链路追踪、线程Dump分析。
    八、 网络故障排查:TCP/IP协议栈、抓包分析(tcpdump/Wireshark)、DNS解析问题排查。
    九、 应用性能排查:慢SQL分析、JVM调优、内存泄漏排查、CPU飙高分析。
    十、 混沌工程实践:混沌工程原则、故障注入实验设计(网络延迟/节点宕机/磁盘满)、Chaos Mesh/ChaosBlade使用。
    十一、 容量规划与弹性伸缩:压测方法、容量评估模型、HPA/VPA配置、资源利用率优化。
    十二、 实战演练:模拟生产环境故障,进行全流程的故障排查、定位和恢复演练,并完成事后复盘分析。





如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>