课程培训
SRE培训课程大纲(选修)

SRE培训课程大纲(选修)

专题划分

专题一:SRE基础与核心理念
专题二:服务级别目标(SLO)与错误预算
专题三:可观测性体系建设
专题四:监控系统与告警管理
专题五:事件响应与故障处理
专题六:容量规划与性能管理
专题七:混沌工程与韧性架构
专题八:自动化运维与平台工程
专题九:琐事消除与效能提升
专题十:SRE组织转型与文化
专题十一:SRE工具链与平台建设
专题十二:SRE落地实践与演进

专题一:SRE基础与核心理念

  1. SRE定义与起源:Google SRE发展历程、核心思想

  2. SRE与传统运维的区别:从被动响应到主动工程化

  3. SRE与DevOps的关系:SRE是DevOps的具体实现

  4. SRE核心原则:拥抱风险、消除琐事、工程化思维

  5. SRE的黄金八原则:可用性、延迟、性能、容量等

  6. SRE工程师职责与能力模型:软件工程背景、运维能力

  7. 风险与可用性平衡:100%可用性为什么不是目标

  8. SRE良性循环:SLO驱动、自动化、减少琐事

  9. 服务生命周期管理:从设计到退役的全流程参与

  10. SRE与传统ITIL框架的差异与互补

  11. SRE度量体系:可用性、延迟、吞吐量、错误率

  12. 案例解析:Google SRE经典实践与国内落地案例

专题二:服务级别目标(SLO)与错误预算

  1. SLI、SLO、SLA的定义与区别

  2. 服务级别指标(SLI)选择:用户视角、关键指标

  3. 常见SLI类型:可用性、延迟、吞吐量、错误率

  4. SLI采集与聚合:时间窗口、百分位数计算

  5. 服务级别目标(SLO)设定:目标值、达成期限

  6. 错误预算原理:100% - SLO = 可容忍的错误空间

  7. 错误预算决策机制:发布节奏、稳定性投入权衡

  8. 错误预算消耗监控与预警机制

  9. 多层级SLO设计:业务层、服务层、基础设施层

  10. SLO与用户体验的关联:用户旅程、满意度映射

  11. SLO复盘与持续优化:未达成原因分析

  12. 综合实战:为某业务系统设计SLO与错误预算策略

专题三:可观测性体系建设

  1. 可观测性定义:不同于传统监控的主动探索能力

  2. 可观测性三大支柱:指标、日志、链路

  3. 指标(Metrics):时序数据、维度、基数管理

  4. 日志(Logs):结构化日志、日志采集、集中存储

  5. 链路(Traces):分布式追踪、Span上下文

  6. OpenTelemetry标准:统一数据采集与传输

  7. 可观测性成熟度模型:从基础监控到智能诊断

  8. 业务可观测性:业务指标、用户行为、转化率

  9. 可观测性与SLO联动:SLI数据来源、SLO监控

  10. 数据驱动决策:基于可观测性的容量规划、性能优化

  11. 可观测性成本控制:采样策略、存储分层

  12. 综合实战:基于OpenTelemetry构建可观测性数据管道

专题四:监控系统与告警管理

  1. 监控系统架构:采集、存储、分析、可视化

  2. 监控数据源分类:基础设施、中间件、应用、业务

  3. 监控指标设计:黄金指标(延迟/流量/错误/饱和度)

  4. 告警规则设计:阈值告警、同比告警、机器学习告警

  5. 告警分级与优先级:P0/P1/P2/P3、响应时效

  6. 告警抑制与聚合:避免告警风暴、重复告警处理

  7. 告警通知路由:分级通知、值班轮转、升级机制

  8. 告警静默与维护窗口:计划内维护免打扰

  9. 监控仪表盘设计:服务视图、业务视图、租户视图

  10. 监控即代码:告警规则版本化、自动化部署

  11. 告警有效性度量:准确率、召回率、MTTA/MTTR

  12. 综合实战:Prometheus + Alertmanager告警体系搭建

专题五:事件响应与故障处理

  1. 事件定义与分级:故障、事故、问题的界定

  2. 事件响应组织:IM(事件经理)、CL(通信负责人)、SME(技术专家)

  3. 事件响应流程:发现、响应、协调、修复、复盘

  4. On-Call机制设计:值班轮转、接班交接、疲劳管理

  5. 故障应急指挥体系:指挥官、副指挥官、行动组

  6. 故障协同工具:War Room、实时通信、状态同步

  7. 故障定级与定责:影响范围、责任界定原则

  8. 无责复盘文化:根因分析、改进措施、跟踪闭环

  9. 故障知识库积累:典型故障模式、解决方案模板

  10. 故障演练与红蓝对抗:模拟故障、检验响应能力

  11. 重大事件管理流程:升级机制、高管通报

  12. 综合实战:模拟故障应急响应全流程演练

专题六:容量规划与性能管理

  1. 容量管理定义:确保资源满足当前和未来需求

  2. 容量管理层次:业务容量、服务容量、资源容量

  3. 容量预测方法:趋势分析、季节性模型、机器学习

  4. 负载测试与压测:基准测试、峰值测试、耐力测试

  5. 性能基准与阈值:正常水位、告警水位、饱和点

  6. 弹性伸缩策略:垂直伸缩、水平伸缩、自动伸缩

  7. 云环境容量管理:资源配额、成本控制、预留实例

  8. 容量规划与SLO联动:保证延迟目标下的最大负载

  9. 资源利用率优化:装箱率、碎片整理、降本增效

  10. 容量报告与沟通:容量仪表盘、趋势预测、风险预警

  11. 容量管理工具:监控数据、预测算法、模拟仿真

  12. 综合实战:基于业务增长预测进行容量规划演练

专题七:混沌工程与韧性架构

  1. 混沌工程定义:主动注入故障验证系统韧性

  2. 混沌工程与测试的区别:探索未知、验证假设

  3. 混沌工程成熟度模型:从手动到平台化

  4. 稳态假设与实验设计:系统正常行为的定义

  5. 爆炸半径控制:灰度执行、可观测性、快速回滚

  6. 常见混沌实验类型:节点故障、网络故障、依赖故障

  7. 混沌工程工具链:Chaos Mesh、Litmus、Gremlin

  8. 游戏日(Game Day):组织化故障演练

  9. 韧性架构设计原则:容错、降级、熔断、重试

  10. 故障注入与SLO验证:检验错误预算保护机制

  11. 混沌实验复盘与改进:发现脆弱点、优化设计

  12. 综合实战:在K8s环境中开展混沌工程实验

专题八:自动化运维与平台工程

  1. 自动化运维价值:效率提升、减少人为错误

  2. 自动化层次:脚本化、工具化、平台化、智能化

  3. 基础设施即代码(IaC):Terraform、CloudFormation

  4. 配置管理自动化:Ansible、Puppet、Chef

  5. 部署自动化:CI/CD流水线、发布策略

  6. 作业平台设计:脚本执行、任务编排、审批流程

  7. 平台工程(Platform Engineering):内部开发者平台

  8. 自助服务能力:环境申请、权限开通、资源交付

  9. 自动化与可观测性集成:自动触发、反馈闭环

  10. 自动化度量:覆盖率、成功率、节省工时

  11. 平台工程与SRE的关系:平台支撑SRE规模化

  12. 综合实战:构建一个自助化环境申请平台

专题九:琐事消除与效能提升

  1. 琐事(Toil)定义:手动、重复、无长期价值的工作

  2. 琐事与工程工作的区别:创造性工作vs重复劳动

  3. 琐事来源分析:手工操作、流程缺失、技术债务

  4. 琐事度量指标:琐事占比、琐事工时、趋势分析

  5. 琐事消除四步法:识别、度量、优先级、自动化

  6. 琐事消除案例:手工发布、手动扩容、重复咨询

  7. 效能体系架构:OnCall、流程引擎、作业引擎

  8. OnCall规范设计:响应时效、升级机制、交接管理

  9. 流程引擎与ITSM集成:审批流、工单流转

  10. 作业引擎设计:命令库、脚本管理、执行记录

  11. 琐事消除与员工满意度:降低 burnout 提升价值感

  12. 综合实战:识别团队琐事并制定消除计划

专题十:SRE组织转型与文化

  1. SRE组织模式:嵌入式、集中式、混合式

  2. SRE团队规模与职责划分:基础SRE、业务SRE、工具SRE

  3. SRE与研发团队的协作模式:共同负责可用性

  4. 开发参与On-Call的设计与实施

  5. SRE招聘与能力模型:软件工程能力优先

  6. SRE转型挑战:文化冲突、技能转型、权责划分

  7. 组织架构调整策略:试点先行、逐步推广

  8. SRE度量与绩效考核:SLO达成、工程产出、琐事消除

  9. 无责文化落地:鼓励创新、容忍失败、持续改进

  10. SRE与产品、业务部门的协同:SLO协商、容量规划

  11. 案例分享:互联网企业SRE转型实践经验

  12. 综合实战:设计企业SRE组织转型路线图

专题十一:SRE工具链与平台建设

  1. SRE工具链全景:监控、日志、追踪、告警、事件、CMDB

  2. CMDB与服务树建设:配置项、关系、生命周期

  3. 数据资产标准化:命名规范、标签体系、元数据

  4. 服务树设计:业务维度、组织维度、技术维度

  5. 事件响应平台:OnCall、排班、升级、通知

  6. 流程引擎设计:审批流、工单、自动化触发

  7. 作业平台设计:脚本执行、命令库、审计日志

  8. 监控平台整合:数据采集、存储、告警、可视化

  9. 工具链集成:API打通、数据联动、单点登录

  10. 平台工程化:内部开发者平台、自助服务能力

  11. 工具选型策略:自研vs采购、开源vs商业

  12. 综合实战:设计SRE工具链架构与集成方案

专题十二:SRE落地实践与演进

  1. SRE成熟度评估模型:从初始级到优化级

  2. SRO驱动的演进路径:SLO定义、监控、告警、响应

  3. 渐进式落地策略:选择试点、快速见效、逐步推广

  4. 遗留系统SRE改造:技术债务管理、渐进式重构

  5. 云原生环境下的SRE实践:K8s、微服务、Service Mesh

  6. 大模型与AIOps在SRE中的应用:智能告警、根因分析

  7. 运维知识库构建(RAG):文档沉淀、智能问答

  8. SRE与安全融合(DevSecOps):安全左移、合规自动化

  9. SRE与FinOps结合:成本监控、资源优化

  10. SRE演进趋势:平台工程、数据驱动、智能化

  11. SRE实践复盘案例:头部企业SRE建设路径

  12. 综合大作业:制定企业SRE三年演进规划





如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>