SRE培训课程大纲（选修）-中科信软培训中心

课程培训

数据方向培训

大厂培训

可视化技术

科学计算与工程仿真

机械设计培训

CFD培训

CAE培训

其它

设计方向

软考类

SRE培训课程大纲（选修）

专题划分

专题一：SRE基础与核心理念
专题二：服务级别目标（SLO）与错误预算
专题三：可观测性体系建设
专题四：监控系统与告警管理
专题五：事件响应与故障处理
专题六：容量规划与性能管理
专题七：混沌工程与韧性架构
专题八：自动化运维与平台工程
专题九：琐事消除与效能提升
专题十：SRE组织转型与文化
专题十一：SRE工具链与平台建设
专题十二：SRE落地实践与演进

专题一：SRE基础与核心理念

SRE定义与起源：Google SRE发展历程、核心思想
SRE与传统运维的区别：从被动响应到主动工程化
SRE与DevOps的关系：SRE是DevOps的具体实现
SRE核心原则：拥抱风险、消除琐事、工程化思维
SRE的黄金八原则：可用性、延迟、性能、容量等
SRE工程师职责与能力模型：软件工程背景、运维能力
风险与可用性平衡：100%可用性为什么不是目标
SRE良性循环：SLO驱动、自动化、减少琐事
服务生命周期管理：从设计到退役的全流程参与
SRE与传统ITIL框架的差异与互补
SRE度量体系：可用性、延迟、吞吐量、错误率
案例解析：Google SRE经典实践与国内落地案例

专题二：服务级别目标（SLO）与错误预算

SLI、SLO、SLA的定义与区别
服务级别指标（SLI）选择：用户视角、关键指标
常见SLI类型：可用性、延迟、吞吐量、错误率
SLI采集与聚合：时间窗口、百分位数计算
服务级别目标（SLO）设定：目标值、达成期限
错误预算原理：100% - SLO = 可容忍的错误空间
错误预算决策机制：发布节奏、稳定性投入权衡
错误预算消耗监控与预警机制
多层级SLO设计：业务层、服务层、基础设施层
SLO与用户体验的关联：用户旅程、满意度映射
SLO复盘与持续优化：未达成原因分析
综合实战：为某业务系统设计SLO与错误预算策略

专题三：可观测性体系建设

可观测性定义：不同于传统监控的主动探索能力
可观测性三大支柱：指标、日志、链路
指标（Metrics）：时序数据、维度、基数管理
日志（Logs）：结构化日志、日志采集、集中存储
链路（Traces）：分布式追踪、Span上下文
OpenTelemetry标准：统一数据采集与传输
可观测性成熟度模型：从基础监控到智能诊断
业务可观测性：业务指标、用户行为、转化率
可观测性与SLO联动：SLI数据来源、SLO监控
数据驱动决策：基于可观测性的容量规划、性能优化
可观测性成本控制：采样策略、存储分层
综合实战：基于OpenTelemetry构建可观测性数据管道

专题四：监控系统与告警管理

监控系统架构：采集、存储、分析、可视化
监控数据源分类：基础设施、中间件、应用、业务
监控指标设计：黄金指标（延迟/流量/错误/饱和度）
告警规则设计：阈值告警、同比告警、机器学习告警
告警分级与优先级：P0/P1/P2/P3、响应时效
告警抑制与聚合：避免告警风暴、重复告警处理
告警通知路由：分级通知、值班轮转、升级机制
告警静默与维护窗口：计划内维护免打扰
监控仪表盘设计：服务视图、业务视图、租户视图
监控即代码：告警规则版本化、自动化部署
告警有效性度量：准确率、召回率、MTTA/MTTR
综合实战：Prometheus + Alertmanager告警体系搭建

专题五：事件响应与故障处理

事件定义与分级：故障、事故、问题的界定
事件响应组织：IM（事件经理）、CL（通信负责人）、SME（技术专家）
事件响应流程：发现、响应、协调、修复、复盘
On-Call机制设计：值班轮转、接班交接、疲劳管理
故障应急指挥体系：指挥官、副指挥官、行动组
故障协同工具：War Room、实时通信、状态同步
故障定级与定责：影响范围、责任界定原则
无责复盘文化：根因分析、改进措施、跟踪闭环
故障知识库积累：典型故障模式、解决方案模板
故障演练与红蓝对抗：模拟故障、检验响应能力
重大事件管理流程：升级机制、高管通报
综合实战：模拟故障应急响应全流程演练

专题六：容量规划与性能管理

容量管理定义：确保资源满足当前和未来需求
容量管理层次：业务容量、服务容量、资源容量
容量预测方法：趋势分析、季节性模型、机器学习
负载测试与压测：基准测试、峰值测试、耐力测试
性能基准与阈值：正常水位、告警水位、饱和点
弹性伸缩策略：垂直伸缩、水平伸缩、自动伸缩
云环境容量管理：资源配额、成本控制、预留实例
容量规划与SLO联动：保证延迟目标下的最大负载
资源利用率优化：装箱率、碎片整理、降本增效
容量报告与沟通：容量仪表盘、趋势预测、风险预警
容量管理工具：监控数据、预测算法、模拟仿真
综合实战：基于业务增长预测进行容量规划演练

专题七：混沌工程与韧性架构

混沌工程定义：主动注入故障验证系统韧性
混沌工程与测试的区别：探索未知、验证假设
混沌工程成熟度模型：从手动到平台化
稳态假设与实验设计：系统正常行为的定义
爆炸半径控制：灰度执行、可观测性、快速回滚
常见混沌实验类型：节点故障、网络故障、依赖故障
混沌工程工具链：Chaos Mesh、Litmus、Gremlin
游戏日（Game Day）：组织化故障演练
韧性架构设计原则：容错、降级、熔断、重试
故障注入与SLO验证：检验错误预算保护机制
混沌实验复盘与改进：发现脆弱点、优化设计
综合实战：在K8s环境中开展混沌工程实验

专题八：自动化运维与平台工程

自动化运维价值：效率提升、减少人为错误
自动化层次：脚本化、工具化、平台化、智能化
基础设施即代码（IaC）：Terraform、CloudFormation
配置管理自动化：Ansible、Puppet、Chef
部署自动化：CI/CD流水线、发布策略
作业平台设计：脚本执行、任务编排、审批流程
平台工程（Platform Engineering）：内部开发者平台
自助服务能力：环境申请、权限开通、资源交付
自动化与可观测性集成：自动触发、反馈闭环
自动化度量：覆盖率、成功率、节省工时
平台工程与SRE的关系：平台支撑SRE规模化
综合实战：构建一个自助化环境申请平台

专题九：琐事消除与效能提升

琐事（Toil）定义：手动、重复、无长期价值的工作
琐事与工程工作的区别：创造性工作vs重复劳动
琐事来源分析：手工操作、流程缺失、技术债务
琐事度量指标：琐事占比、琐事工时、趋势分析
琐事消除四步法：识别、度量、优先级、自动化
琐事消除案例：手工发布、手动扩容、重复咨询
效能体系架构：OnCall、流程引擎、作业引擎
OnCall规范设计：响应时效、升级机制、交接管理
流程引擎与ITSM集成：审批流、工单流转
作业引擎设计：命令库、脚本管理、执行记录
琐事消除与员工满意度：降低 burnout 提升价值感
综合实战：识别团队琐事并制定消除计划

专题十：SRE组织转型与文化

SRE组织模式：嵌入式、集中式、混合式
SRE团队规模与职责划分：基础SRE、业务SRE、工具SRE
SRE与研发团队的协作模式：共同负责可用性
开发参与On-Call的设计与实施
SRE招聘与能力模型：软件工程能力优先
SRE转型挑战：文化冲突、技能转型、权责划分
组织架构调整策略：试点先行、逐步推广
SRE度量与绩效考核：SLO达成、工程产出、琐事消除
无责文化落地：鼓励创新、容忍失败、持续改进
SRE与产品、业务部门的协同：SLO协商、容量规划
案例分享：互联网企业SRE转型实践经验
综合实战：设计企业SRE组织转型路线图

专题十一：SRE工具链与平台建设

SRE工具链全景：监控、日志、追踪、告警、事件、CMDB
CMDB与服务树建设：配置项、关系、生命周期
数据资产标准化：命名规范、标签体系、元数据
服务树设计：业务维度、组织维度、技术维度
事件响应平台：OnCall、排班、升级、通知
流程引擎设计：审批流、工单、自动化触发
作业平台设计：脚本执行、命令库、审计日志
监控平台整合：数据采集、存储、告警、可视化
工具链集成：API打通、数据联动、单点登录
平台工程化：内部开发者平台、自助服务能力
工具选型策略：自研vs采购、开源vs商业
综合实战：设计SRE工具链架构与集成方案

专题十二：SRE落地实践与演进

SRE成熟度评估模型：从初始级到优化级
SRO驱动的演进路径：SLO定义、监控、告警、响应
渐进式落地策略：选择试点、快速见效、逐步推广
遗留系统SRE改造：技术债务管理、渐进式重构
云原生环境下的SRE实践：K8s、微服务、Service Mesh
大模型与AIOps在SRE中的应用：智能告警、根因分析
运维知识库构建（RAG）：文档沉淀、智能问答
SRE与安全融合（DevSecOps）：安全左移、合规自动化
SRE与FinOps结合：成本监控、资源优化
SRE演进趋势：平台工程、数据驱动、智能化
SRE实践复盘案例：头部企业SRE建设路径
综合大作业：制定企业SRE三年演进规划

如果您想学习本课程，请预约报名
如果没找到合适的课程或有特殊培训需求，请订制培训
除培训外，同时提供相关技术咨询与技术支持服务，有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点：
海量专家资源，精准匹配相关行业，相关项目专家，针对实际需求，顾问式咨询，互动式授课，案例教学，小班授课，实际项目演示，快捷高效，省时省力省钱。

专家力量：
中国科学院软件研究所，计算研究所高级研究人员
oracle,微软，vmware，MSC,Ansys，candence,Altium,达索等大型公司高级工程师，项目经理，技术支持专家
中科信软培训中心，资深专家或讲师
大多名牌大学，硕士以上学历，相关技术专业，理论素养丰富
多年实际项目经历，大型项目实战案例，热情，乐于技术分享
针对客户实际需求，案例教学，互动式沟通，学有所获

报名表下载

点击进入报名表

联系我们更多>>

咨询电话：010-62883247

4007991916

咨询邮箱：soft@info-soft.cn

微信咨询

随时听讲课

聚焦技术实践