课程培训
SRE与混沌工程培训课程

一、培训对象

  • SRE工程师、系统架构师、运维负责人

  • 负责系统稳定性、高可用架构设计的技术人员

  • 计划引入混沌工程实践或韧性测试的团队

二、培训目标

  • 理解SRE的核心方法论:SLI/SLO/Error Budget、容量规划、故障演练

  • 能够设计合理的SLO并进行日常燃尽追踪

  • 掌握混沌工程实验的设计原则与工具链(如Chaos Mesh、ChaosBlade)

  • 通过主动注入故障提升系统的容错与自愈能力

三、培训内容介绍

一、SRE核心理念与角色边界
讲解SRE与传统运维的差异、可用性标准、Toil管理、值班轮转与应急处置原则。

二、SLI与SLO指标体系设计
针对不同服务类型(HTTP、消息队列、DB)设计关键可用性与性能指标,并定义合理的SLO目标值与测量窗口。

三、Error Budget与燃尽分析
计算错误预算,学习预算消耗过快时的应对策略(限流、暂停发布、人工介入),并通过燃尽图做风险预警。

四、容量规划与扩容策略
结合负载测试与历史监控数据,设计基于CPU、QPS、延迟的自动扩容/缩容策略,并测算冗余成本与可用性的平衡。

五、Toil自动化与SRE工程效能
识别高重复性的运维操作,设计自动化方案减少人工操作,提升SRE团队的工程化时间占比。

六、混沌工程原理与安全边界
讲解混沌工程与故障测试的区别、爆炸半径控制原则、终止条件与全链路观测要求。

七、混沌实验设计过程
学习假设驱动实验法:提出系统弱点假设、确定实验指标、设计注入范围、执行并分析结果。

八、混沌工程工具链部署与使用
部署Chaos Mesh或ChaosBlade,演示Pod kill、网络延迟、CPU负载、IO错误等常见故障注入。

九、应用层与中间件混沌实验
针对MySQL、Redis、Kafka等中间件,注入连接池满、主从切换、高延迟等故障,验证服务降级与重试逻辑。

十、基础设施层混沌实验(云环境)
模拟可用区故障、EIP闪断、磁盘满、节点关机等云资源异常,验证多可用区容灾与PDB策略。

十一、实验观测与分析报告
集成监控(Prometheus)与链路追踪(Jaeger),观察故障前后的指标变化,输出实验报告与改进项。

十二、混沌工程常态化与演练日历
建立每月/每季度的故障演练机制,将混沌实验纳入发布前置条件,并建立演练后复盘与知识库更新流程。




如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>