SRE培训课程大纲(选修)
专题划分
专题一:SRE基础与核心理念
专题二:服务级别目标(SLO)与错误预算
专题三:可观测性体系建设
专题四:监控系统与告警管理
专题五:事件响应与故障处理
专题六:容量规划与性能管理
专题七:混沌工程与韧性架构
专题八:自动化运维与平台工程
专题九:琐事消除与效能提升
专题十:SRE组织转型与文化
专题十一:SRE工具链与平台建设
专题十二:SRE落地实践与演进
专题一:SRE基础与核心理念
-
SRE定义与起源:Google SRE发展历程、核心思想
-
SRE与传统运维的区别:从被动响应到主动工程化
-
SRE与DevOps的关系:SRE是DevOps的具体实现
-
SRE核心原则:拥抱风险、消除琐事、工程化思维
-
SRE的黄金八原则:可用性、延迟、性能、容量等
-
SRE工程师职责与能力模型:软件工程背景、运维能力
-
风险与可用性平衡:100%可用性为什么不是目标
-
SRE良性循环:SLO驱动、自动化、减少琐事
-
服务生命周期管理:从设计到退役的全流程参与
-
SRE与传统ITIL框架的差异与互补
-
SRE度量体系:可用性、延迟、吞吐量、错误率
-
案例解析:Google SRE经典实践与国内落地案例
专题二:服务级别目标(SLO)与错误预算
-
SLI、SLO、SLA的定义与区别
-
服务级别指标(SLI)选择:用户视角、关键指标
-
常见SLI类型:可用性、延迟、吞吐量、错误率
-
SLI采集与聚合:时间窗口、百分位数计算
-
服务级别目标(SLO)设定:目标值、达成期限
-
错误预算原理:100% - SLO = 可容忍的错误空间
-
错误预算决策机制:发布节奏、稳定性投入权衡
-
错误预算消耗监控与预警机制
-
多层级SLO设计:业务层、服务层、基础设施层
-
SLO与用户体验的关联:用户旅程、满意度映射
-
SLO复盘与持续优化:未达成原因分析
-
综合实战:为某业务系统设计SLO与错误预算策略
专题三:可观测性体系建设
-
可观测性定义:不同于传统监控的主动探索能力
-
可观测性三大支柱:指标、日志、链路
-
指标(Metrics):时序数据、维度、基数管理
-
日志(Logs):结构化日志、日志采集、集中存储
-
链路(Traces):分布式追踪、Span上下文
-
OpenTelemetry标准:统一数据采集与传输
-
可观测性成熟度模型:从基础监控到智能诊断
-
业务可观测性:业务指标、用户行为、转化率
-
可观测性与SLO联动:SLI数据来源、SLO监控
-
数据驱动决策:基于可观测性的容量规划、性能优化
-
可观测性成本控制:采样策略、存储分层
-
综合实战:基于OpenTelemetry构建可观测性数据管道
专题四:监控系统与告警管理
-
监控系统架构:采集、存储、分析、可视化
-
监控数据源分类:基础设施、中间件、应用、业务
-
监控指标设计:黄金指标(延迟/流量/错误/饱和度)
-
告警规则设计:阈值告警、同比告警、机器学习告警
-
告警分级与优先级:P0/P1/P2/P3、响应时效
-
告警抑制与聚合:避免告警风暴、重复告警处理
-
告警通知路由:分级通知、值班轮转、升级机制
-
告警静默与维护窗口:计划内维护免打扰
-
监控仪表盘设计:服务视图、业务视图、租户视图
-
监控即代码:告警规则版本化、自动化部署
-
告警有效性度量:准确率、召回率、MTTA/MTTR
-
综合实战:Prometheus + Alertmanager告警体系搭建
专题五:事件响应与故障处理
-
事件定义与分级:故障、事故、问题的界定
-
事件响应组织:IM(事件经理)、CL(通信负责人)、SME(技术专家)
-
事件响应流程:发现、响应、协调、修复、复盘
-
On-Call机制设计:值班轮转、接班交接、疲劳管理
-
故障应急指挥体系:指挥官、副指挥官、行动组
-
故障协同工具:War Room、实时通信、状态同步
-
故障定级与定责:影响范围、责任界定原则
-
无责复盘文化:根因分析、改进措施、跟踪闭环
-
故障知识库积累:典型故障模式、解决方案模板
-
故障演练与红蓝对抗:模拟故障、检验响应能力
-
重大事件管理流程:升级机制、高管通报
-
综合实战:模拟故障应急响应全流程演练
专题六:容量规划与性能管理
-
容量管理定义:确保资源满足当前和未来需求
-
容量管理层次:业务容量、服务容量、资源容量
-
容量预测方法:趋势分析、季节性模型、机器学习
-
负载测试与压测:基准测试、峰值测试、耐力测试
-
性能基准与阈值:正常水位、告警水位、饱和点
-
弹性伸缩策略:垂直伸缩、水平伸缩、自动伸缩
-
云环境容量管理:资源配额、成本控制、预留实例
-
容量规划与SLO联动:保证延迟目标下的最大负载
-
资源利用率优化:装箱率、碎片整理、降本增效
-
容量报告与沟通:容量仪表盘、趋势预测、风险预警
-
容量管理工具:监控数据、预测算法、模拟仿真
-
综合实战:基于业务增长预测进行容量规划演练
专题七:混沌工程与韧性架构
-
混沌工程定义:主动注入故障验证系统韧性
-
混沌工程与测试的区别:探索未知、验证假设
-
混沌工程成熟度模型:从手动到平台化
-
稳态假设与实验设计:系统正常行为的定义
-
爆炸半径控制:灰度执行、可观测性、快速回滚
-
常见混沌实验类型:节点故障、网络故障、依赖故障
-
混沌工程工具链:Chaos Mesh、Litmus、Gremlin
-
游戏日(Game Day):组织化故障演练
-
韧性架构设计原则:容错、降级、熔断、重试
-
故障注入与SLO验证:检验错误预算保护机制
-
混沌实验复盘与改进:发现脆弱点、优化设计
-
综合实战:在K8s环境中开展混沌工程实验
专题八:自动化运维与平台工程
-
自动化运维价值:效率提升、减少人为错误
-
自动化层次:脚本化、工具化、平台化、智能化
-
基础设施即代码(IaC):Terraform、CloudFormation
-
配置管理自动化:Ansible、Puppet、Chef
-
部署自动化:CI/CD流水线、发布策略
-
作业平台设计:脚本执行、任务编排、审批流程
-
平台工程(Platform Engineering):内部开发者平台
-
自助服务能力:环境申请、权限开通、资源交付
-
自动化与可观测性集成:自动触发、反馈闭环
-
自动化度量:覆盖率、成功率、节省工时
-
平台工程与SRE的关系:平台支撑SRE规模化
-
综合实战:构建一个自助化环境申请平台
专题九:琐事消除与效能提升
-
琐事(Toil)定义:手动、重复、无长期价值的工作
-
琐事与工程工作的区别:创造性工作vs重复劳动
-
琐事来源分析:手工操作、流程缺失、技术债务
-
琐事度量指标:琐事占比、琐事工时、趋势分析
-
琐事消除四步法:识别、度量、优先级、自动化
-
琐事消除案例:手工发布、手动扩容、重复咨询
-
效能体系架构:OnCall、流程引擎、作业引擎
-
OnCall规范设计:响应时效、升级机制、交接管理
-
流程引擎与ITSM集成:审批流、工单流转
-
作业引擎设计:命令库、脚本管理、执行记录
-
琐事消除与员工满意度:降低 burnout 提升价值感
-
综合实战:识别团队琐事并制定消除计划
专题十:SRE组织转型与文化
-
SRE组织模式:嵌入式、集中式、混合式
-
SRE团队规模与职责划分:基础SRE、业务SRE、工具SRE
-
SRE与研发团队的协作模式:共同负责可用性
-
开发参与On-Call的设计与实施
-
SRE招聘与能力模型:软件工程能力优先
-
SRE转型挑战:文化冲突、技能转型、权责划分
-
组织架构调整策略:试点先行、逐步推广
-
SRE度量与绩效考核:SLO达成、工程产出、琐事消除
-
无责文化落地:鼓励创新、容忍失败、持续改进
-
SRE与产品、业务部门的协同:SLO协商、容量规划
-
案例分享:互联网企业SRE转型实践经验
-
综合实战:设计企业SRE组织转型路线图
专题十一:SRE工具链与平台建设
-
SRE工具链全景:监控、日志、追踪、告警、事件、CMDB
-
CMDB与服务树建设:配置项、关系、生命周期
-
数据资产标准化:命名规范、标签体系、元数据
-
服务树设计:业务维度、组织维度、技术维度
-
事件响应平台:OnCall、排班、升级、通知
-
流程引擎设计:审批流、工单、自动化触发
-
作业平台设计:脚本执行、命令库、审计日志
-
监控平台整合:数据采集、存储、告警、可视化
-
工具链集成:API打通、数据联动、单点登录
-
平台工程化:内部开发者平台、自助服务能力
-
工具选型策略:自研vs采购、开源vs商业
-
综合实战:设计SRE工具链架构与集成方案
专题十二:SRE落地实践与演进
-
SRE成熟度评估模型:从初始级到优化级
-
SRO驱动的演进路径:SLO定义、监控、告警、响应
-
渐进式落地策略:选择试点、快速见效、逐步推广
-
遗留系统SRE改造:技术债务管理、渐进式重构
-
云原生环境下的SRE实践:K8s、微服务、Service Mesh
-
大模型与AIOps在SRE中的应用:智能告警、根因分析
-
运维知识库构建(RAG):文档沉淀、智能问答
-
SRE与安全融合(DevSecOps):安全左移、合规自动化
-
SRE与FinOps结合:成本监控、资源优化
-
SRE演进趋势:平台工程、数据驱动、智能化
-
SRE实践复盘案例:头部企业SRE建设路径
-
综合大作业:制定企业SRE三年演进规划
如果您想学习本课程,请
预约报名
如果没找到合适的课程或有特殊培训需求,请
订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请
服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。
专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获