课程培训
SRE站点可靠性工程:SLI/SLO/错误预算培训课程

SRE站点可靠性工程:SLI/SLO/错误预算培训课程

  •  

  • 培训对象: SRE工程师、运维负责人、系统架构师、可靠性平台开发者。

  •  

  • 培训目标:

    • 理解SRE的核心原则和与传统运维的区别。

    • 掌握SLI(服务指标)、SLO(服务目标)和错误预算的定义方法。

    • 能够设计可靠性监控体系和告警策略。

    • 具备事后复盘和改进措施制定能力。

  •  

  • 培训内容介绍:

  •  

    一、 SRE概述与核心原则: 了解Google SRE的起源,掌握SRE的核心价值观(接受风险、消除琐事、监控分布式系统)。

    二、 SLI指标定义与收集: 确定关键的用户旅程,定义可用性、延迟、吞吐量、错误率等SLI,使用监控系统采集。

    三、 SLO目标设定: 根据业务需求设定合理的SLO目标(如99.9%可用性),理解SLO与用户体验的关系。

    四、 错误预算与决策机制: 计算错误预算(1 - SLO),使用错误预算指导发布节奏和风险决策。

    五、 监控体系建设: 设计监控指标体系(USE方法、RED方法),配置基础监控和业务监控。

    六、 告警策略设计: 避免告警风暴,制定合理的告警规则,区分警告和紧急级别,设置抑制和静默。

    七、 事件响应流程: 建立事件响应机制,明确响应角色和流程,使用PagerDuty或类似工具轮班。

    八、 事后复盘(Postmortem): 进行无指责的事后复盘,记录时间线、根本原因和后续改进措施。

    九、 容量规划与负载测试: 根据增长趋势进行容量预测,定期进行压力测试和极限测试。

    十、 混沌工程实践: 引入混沌工程主动注入故障,验证系统弹性和监控告警有效性。

    十一、 SLO与业务价值对齐: 将技术SLO转化为业务语言,与业务方对齐期望,管理用户期望。

    十二、 实战项目:SRE体系落地: 针对现有系统定义SLI/SLO,搭建监控告警体系,设计事件响应流程。





如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>