课程培训
可观测性与运维培训课程体系(选修)

可观测性与运维培训课程体系(选修)

根据企业IT运维和可观测性体系建设需求,将“可观测性与运维”课程体系划分为以下八大专题课程(按技术专题划分)和六大岗位课程(按岗位划分),供学员根据技术方向和职业需求自主选修。

第一部分:按技术专题划分(八大专题)

专题一:可观测性与运维概述

 
 
项目 内容
课程名称 可观测性与运维概述
培训对象 IT运维人员、SRE工程师、平台工程师、技术管理者
培训目标 使学员掌握可观测性的核心概念、三大支柱和运维体系演进,建立数据驱动的运维思维。
培训内容 • 可观测性定义:可观测性与监控区别、可观测性三大支柱(指标/日志/追踪)
• 运维体系演进:手工运维、自动化运维、数据驱动运维、AIOps演进路径
• SRE核心理念:服务等级指标/服务水平协议/服务等级目标、错误预算、消除琐事
• 监控体系架构:采集层、传输层、存储层、分析层、展示层五层架构
• 可观测性成熟度模型:基础监控、整合监控、可观测性、智能运维四阶段
• 开源与商业工具:Prometheus生态、ELK/EFK栈、Jaeger/SkyWalking
• 运维数据价值:故障定位、容量规划、性能优化、成本分析
• 可观测性文化:数据驱动决策、无责备文化、持续改进
• 组织角色演变:从运维到SRE、平台工程、可观测性工程师
• 可观测性挑战:数据量爆炸、成本控制、采样策略、根因定位
• 运维自动化与可观测性:自愈系统、自动伸缩、故障自愈
• 行业发展趋势:eBPF技术、OpenTelemetry标准、AIOps智能化

专题二:指标监控体系(Prometheus)

 
 
项目 内容
课程名称 指标监控体系(Prometheus)深度实践
培训对象 监控工程师、SRE工程师、运维人员、平台工程师
培训目标 使学员掌握Prometheus监控体系核心技术,能够独立搭建企业级指标监控平台,实现多维数据采集、存储和查询。
培训内容 • Prometheus架构:Pull模型、时序数据库、服务发现、联邦集群
• 指标类型详解:Counter、Gauge、Histogram、Summary适用场景
• PromQL查询语言:即时查询、范围查询、聚合操作、函数应用、向量匹配
• 服务发现机制:文件发现、Consul发现、Kubernetes发现、自定义发现
• Exporter生态:Node Exporter、Blackbox Exporter、自定义Exporter开发
• 采集器配置:抓取间隔、超时设置、标签重写、过滤规则
• 告警规则管理:告警规则定义、分组抑制、静默配置、路由策略
• Alertmanager配置:接收器配置(邮件/钉钉/微信/Webhook)、模板定制
• 高可用方案:Thanos架构、接收端、查询端、压缩端、存储网关
• Cortex架构:多租户、长期存储、水平扩展、云原生部署
• Prometheus Operator:自定义资源、自动化部署、服务监控配置
• 最佳实践:指标命名规范、标签设计、采集性能优化、成本控制

专题三:日志管理体系(ELK/EFK/Loki)

 
 
项目 内容
课程名称 日志管理体系深度实践
培训对象 日志工程师、运维人员、SRE工程师、安全分析人员
培训目标 使学员掌握日志采集、处理、存储和查询技术,能够独立搭建企业级日志平台,实现日志集中管理和智能分析。
培训内容 • 日志体系架构:采集层、传输层、处理层、存储层、查询层架构
• ELK栈深度:Elasticsearch集群、Logstash管道、Kibana可视化
• EFK栈实践:Fluentd/Fluent Bit配置、转发、缓冲、过滤
• Elasticsearch集群:节点角色、分片与副本、索引生命周期、冷热分离
• 索引生命周期管理:ILM策略、滚动索引、数据迁移、删除策略
• Logstash配置:输入插件(file/beats/kafka)、过滤插件(grok/mutate)
• 日志解析技术:正则表达式、grok模式、Json解析、Key-Value解析
• Beats轻量采集:Filebeat配置、多行合并、模块使用、负载均衡
• Loki轻量日志:Loki架构、Promtail配置、LogQL查询、标签索引
• 日志存储优化:压缩、冷热分离、降采样、归档策略
• 日志告警:Elastalert、Watcher、日志异常检测
• 日志安全与合规:审计日志、访问控制、数据脱敏、合规保留

专题四:分布式链路追踪

 
 
项目 内容
课程名称 分布式链路追踪技术深度实践
培训对象 微服务开发者、SRE工程师、性能优化工程师、平台架构师
培训目标 使学员掌握分布式追踪核心技术,能够独立部署Jaeger/Tempo等追踪系统,实现调用链分析和性能瓶颈定位。
培训内容 • 分布式追踪原理:Trace/Span概念、上下文传播、采样策略、追踪模型
• OpenTracing标准:Span标签、日志、引用关系、跨进程传播
• OpenTelemetry统一标准:OTel架构、Collector、SDK、自动埋点
• Jaeger架构:Agent、Collector、Query、UI、存储后端(Cassandra/Elasticsearch)
• Jaeger部署实践:All-in-One模式、生产模式、Kubernetes部署
• 采样策略:概率采样、速率限制、远程采样、自适应采样
• 追踪数据存储:Elasticsearch、Cassandra、Kafka集成、数据生命周期
• 调用链分析:依赖图、延迟分布、错误追踪、慢调用定位
• 性能瓶颈分析:Span耗时、服务拓扑、热点追踪、火焰图
• SkyWalking架构:OAP服务器、存储、UI、语言探针
• SkyWalking实践:Java/.NET/Go/Python探针配置、服务监控
• Tempo轻量追踪:Tempo架构、与Grafana集成、TraceQL查询

专题五:应用性能监控(APM)

 
 
项目 内容
课程名称 应用性能监控(APM)深度实践
培训对象 APM工程师、应用运维、性能优化工程师、开发人员
培训目标 使学员掌握应用性能监控技术,能够独立部署APM系统,实现应用性能分析和代码级瓶颈定位。
培训内容 • APM核心理念:应用拓扑、事务追踪、代码级性能、用户体验监控
• 开源APM选型:Pinpoint、SkyWalking、Elastic APM、Apache SkyWalking
• Pinpoint深度:字节码注入、数据采集、服务地图、调用栈分析
• Pinpoint部署:Collector集群、Web UI、HBase存储、Agent配置
• SkyWalking APM:OAP集群、存储选型(Elasticsearch/MySQL)、UI配置
• 语言探针配置:Java/.NET/Go/Python/Node.js探针接入
• 服务拓扑发现:服务依赖关系、调用量统计、健康状态
• 慢事务追踪:慢请求采样、调用栈分析、SQL性能分析
• 错误分析:异常捕获、错误统计、错误详情、错误趋势
• 性能指标:响应时间、吞吐量、错误率、Apdex评分
• 代码级性能:方法耗时、热点代码、内存分析、线程分析
• APM告警:阈值告警、异常检测、告警路由、通知集成

专题六:可视化与仪表盘(Grafana)

 
 
项目 内容
课程名称 可视化与仪表盘(Grafana)深度实践
培训对象 可视化工程师、运维人员、SRE工程师、数据分析师
培训目标 使学员掌握Grafana可视化平台核心功能,能够设计专业的数据仪表盘,实现多数据源统一可视化和告警。
培训内容 • Grafana架构:Grafana Server、数据源插件、仪表盘模型、用户认证
• 数据源配置:Prometheus、Loki、Elasticsearch、InfluxDB、MySQL集成
• 仪表盘设计原则:信息层级、图表选择、配色方案、布局规划
• 面板类型详解:时间序列、表格、热图、直方图、统计、仪表
• 查询编辑器:PromQL、LogQL、SQL集成、变量模板、转换函数
• 变量模板:查询变量、常量变量、间隔变量、多值变量、级联变量
• 告警配置:告警规则、通知渠道(钉钉/微信/邮件)、静默管理
• 团队协作:组织管理、用户角色、文件夹权限、仪表盘版本控制
• 插件生态:Panel插件、数据源插件、App插件、自定义开发
• Grafana Loki集成:日志可视化、标签过滤、日志查询、统计图表
• Grafana Tempo集成:追踪可视化、TraceQL查询、服务拓扑
• 企业级特性:Grafana Enterprise、RBAC、报表、白标、认证集成

专题七:运维自动化与AIOps

 
 
项目 内容
课程名称 运维自动化与AIOps实践
培训对象 SRE工程师、自动化运维工程师、平台架构师、技术管理者
培训目标 使学员掌握运维自动化和智能运维(AIOps)技术,能够构建自愈系统和智能告警体系。
培训内容 • 自动化运维体系:自动化层次模型、自动化成熟度、自动化度量
• 事件管理自动化:告警收敛、事件关联、自动分派、自动升级
• 故障自愈系统:故障检测、根因分析、自动恢复、自愈策略
• 混沌工程:稳态假设、实验设计、爆炸半径、自动化实验
• 告警降噪:重复告警聚合、相似告警聚类、依赖关系分析
• 异常检测算法:时序异常检测(3Sigma/移动平均/机器学习)
• 根因定位:调用链分析、关联分析、多维下钻、疑似根因推荐
• 智能预测:容量预测、趋势分析、异常预警、资源优化
• AIOps平台架构:数据采集、特征工程、算法模型、决策执行
• 日志异常检测:模式识别、聚类分析、语义理解
• 运维知识库:故障模式库、解决方案库、经验沉淀、知识图谱
• AIOps实践案例:智能告警、故障自愈、容量预测、成本优化

专题八:SRE与稳定性工程

 
 
项目 内容
课程名称 SRE与稳定性工程实践
培训对象 SRE工程师、运维负责人、平台架构师、技术管理者
培训目标 使学员掌握SRE核心方法论和实践技术,能够建立服务等级指标体系,构建高可用系统架构。
培训内容 • SRE核心理念:服务等级指标/服务水平协议/服务等级目标、错误预算、消除琐事
• 服务等级指标定义:可用性、延迟、吞吐量、错误率、饱和度
• 服务等级目标设定:目标值确定、燃烧率、误差预算计算
• 错误预算策略:发布速率控制、故障容忍度、风险接受
• 容量规划:负载测试、容量评估、弹性伸缩、成本优化
• 混沌工程实践:稳态假设、实验设计、爆炸半径控制、自动化实验
• 故障管理:故障分级、响应流程、事后复盘、改进跟踪
• 分布式系统韧性:重试退避、熔断降级、限流保护、幂等性设计
• 高可用架构设计:冗余设计、故障转移、多活架构、容灾策略
• 可观测性驱动开发:埋点规范、业务监控、用户体验监测
• SRE文化落地:跨团队协作、知识共享、技术创新激励
• SRE工具链:监控告警、日志分析、追踪系统、混沌工程平台

第二部分:按岗位划分(六大岗位)

岗位一:监控工程师

 
 
项目 内容
课程名称 监控工程师实战课程
岗位定位 负责企业监控体系建设,包括指标采集、告警配置、仪表盘设计,保障系统可观测性基础能力。
培训目标 使学员掌握指标监控核心技术,能够独立搭建Prometheus监控平台,设计专业的监控仪表盘和告警体系。
培训对象 监控工程师、运维人员、SRE工程师、平台工程师
核心课程 • 可观测性与运维概述:可观测性三大支柱、监控体系架构
• 指标监控体系(Prometheus):Prometheus架构、指标类型、服务发现
• PromQL查询语言:即时查询、范围查询、聚合操作、函数应用
• Exporter生态:Node Exporter、Blackbox Exporter、自定义Exporter
• 告警规则管理:告警规则定义、分组抑制、静默配置
• Alertmanager配置:接收器配置(邮件/钉钉/微信)、模板定制
• 可视化与仪表盘(Grafana):数据源配置、面板类型、变量模板
• 仪表盘设计原则:信息层级、图表选择、配色方案、布局规划
• 高可用方案:Thanos架构、接收端、查询端、压缩端
• Prometheus Operator:自定义资源、自动化部署、服务监控配置
• 监控指标体系:RED方法、USE方法、黄金指标
• 最佳实践:指标命名规范、标签设计、采集性能优化

岗位二:日志工程师

 
 
项目 内容
课程名称 日志工程师实战课程
岗位定位 负责企业日志平台建设,包括日志采集、解析、存储和分析,保障日志数据的集中管理和查询效率。
培训目标 使学员掌握日志管理核心技术,能够独立搭建ELK/EFK日志平台,实现日志的集中采集、解析和可视化。
培训对象 日志工程师、运维人员、安全分析人员、平台工程师
核心课程 • 可观测性与运维概述:日志体系架构、日志价值
• 日志管理体系:ELK/EFK/Loki架构对比、选型策略
• Elasticsearch集群:节点角色、分片与副本、索引生命周期
• Logstash配置:输入插件(file/beats/kafka)、过滤插件(grok/mutate)
• 日志解析技术:正则表达式、grok模式、Json解析、Key-Value解析
• Beats轻量采集:Filebeat配置、多行合并、模块使用、负载均衡
• Kibana可视化:数据探索、仪表盘设计、日志分析、图表定制
• 索引生命周期管理:ILM策略、滚动索引、数据迁移、删除策略
• Loki轻量日志:Loki架构、Promtail配置、LogQL查询、标签索引
• 日志告警:Elastalert配置、Watcher、日志异常检测
• 日志安全与合规:审计日志、访问控制、数据脱敏、合规保留
• 日志存储优化:压缩、冷热分离、降采样、归档策略

岗位三:链路追踪工程师

 
 
项目 内容
课程名称 链路追踪工程师实战课程
岗位定位 负责分布式追踪系统建设,帮助研发团队定位性能瓶颈和故障根因,提升微服务可观测性。
培训目标 使学员掌握分布式追踪核心技术,能够独立部署Jaeger/SkyWalking追踪系统,实现调用链分析和性能诊断。
培训对象 追踪工程师、微服务开发者、SRE工程师、性能优化工程师
核心课程 • 可观测性与运维概述:分布式追踪原理、Trace/Span概念
• 分布式链路追踪:OpenTracing/OpenTelemetry标准、上下文传播
• Jaeger架构:Agent、Collector、Query、UI、存储后端
• Jaeger部署实践:All-in-One模式、生产模式、Kubernetes部署
• 采样策略:概率采样、速率限制、远程采样、自适应采样
• 调用链分析:依赖图、延迟分布、错误追踪、慢调用定位
• 性能瓶颈分析:Span耗时、服务拓扑、热点追踪、火焰图
• SkyWalking架构:OAP服务器、存储、UI、语言探针
• SkyWalking实践:Java/.NET/Go/Python探针配置、服务监控
• Tempo轻量追踪:Tempo架构、与Grafana集成、TraceQL查询
• 追踪数据存储:Elasticsearch/Cassandra/Kafka集成、数据生命周期
• 业务追踪实践:自定义Span、业务标签、业务日志关联

岗位四:APM工程师

 
 
项目 内容
课程名称 APM工程师实战课程
岗位定位 负责应用性能监控平台建设,深入分析应用性能问题,协助研发团队优化代码性能。
培训目标 使学员掌握应用性能监控技术,能够独立部署Pinpoint/SkyWalking APM系统,实现代码级性能分析。
培训对象 APM工程师、应用运维、性能优化工程师、开发人员
核心课程 • 可观测性与运维概述:APM核心理念、应用拓扑、事务追踪
• 应用性能监控(APM):开源APM选型(Pinpoint/SkyWalking/Elastic APM)
• Pinpoint深度:字节码注入、数据采集、服务地图、调用栈分析
• Pinpoint部署:Collector集群、Web UI、HBase存储、Agent配置
• SkyWalking APM:OAP集群、存储选型、UI配置、语言探针
• 服务拓扑发现:服务依赖关系、调用量统计、健康状态
• 慢事务追踪:慢请求采样、调用栈分析、SQL性能分析
• 错误分析:异常捕获、错误统计、错误详情、错误趋势
• 性能指标:响应时间、吞吐量、错误率、Apdex评分
• 代码级性能:方法耗时、热点代码、内存分析、线程分析
• APM告警:阈值告警、异常检测、告警路由、通知集成
• 性能优化实践:慢SQL优化、缓存优化、代码重构、架构优化

岗位五:SRE工程师

 
 
项目 内容
课程名称 SRE工程师实战课程
岗位定位 负责系统稳定性保障,通过服务等级指标定义、容量规划、混沌工程等手段提升系统韧性。
培训目标 使学员掌握SRE核心方法论,能够建立服务等级指标体系,设计高可用系统架构,实施混沌工程实践。
培训对象 SRE工程师、运维负责人、平台架构师、技术管理者
核心课程 • 可观测性与运维概述:SRE核心理念、服务等级指标/服务水平协议/服务等级目标、错误预算
• 指标监控体系(Prometheus):黄金指标、RED方法、USE方法
• 服务等级指标定义:可用性、延迟、吞吐量、错误率、饱和度
• 服务等级目标设定:目标值确定、燃烧率、误差预算计算
• 错误预算策略:发布速率控制、故障容忍度、风险接受
• 容量规划:负载测试、容量评估、弹性伸缩、成本优化
• 混沌工程实践:稳态假设、实验设计、爆炸半径控制、Chaos Mesh
• 故障管理:故障分级、响应流程、事后复盘、改进跟踪
• 分布式系统韧性:重试退避、熔断降级、限流保护、幂等性设计
• 高可用架构设计:冗余设计、故障转移、多活架构、容灾策略
• 可观测性驱动开发:埋点规范、业务监控、用户体验监测
• SRE工具链:监控告警、日志分析、追踪系统、混沌工程平台

岗位六:可观测性架构师

 
 
项目 内容
课程名称 可观测性架构师进阶课程
岗位定位 负责企业可观测性体系整体规划,整合指标、日志、追踪三大数据源,构建统一可观测性平台。
培训目标 使学员具备可观测性全局视野,能够设计企业级可观测性平台架构,主导技术选型和平台演进。
培训对象 资深SRE、技术负责人、平台架构师、运维总监
核心课程 • 可观测性与运维概述:可观测性成熟度模型、统一可观测性理念
• 可观测性平台架构:指标/日志/追踪统一采集、存储、查询设计
• OpenTelemetry标准:OTel Collector、自动埋点、多语言SDK集成
• Prometheus生态:Thanos/Cortex企业级架构、长期存储、全局视图
• 日志平台架构:ELK/EFK/Loki选型、冷热分离、归档策略
• 追踪平台架构:Jaeger/Tempo/SkyWalking选型、采样策略、存储优化
• Grafana统一可视化:多数据源集成、统一仪表盘、全局告警
• 可观测性成本优化:采样策略、降采样、数据保留、压缩技术
• AIOps智能运维:异常检测、根因分析、容量预测、智能告警
• 可观测性组织治理:团队角色、流程规范、知识沉淀、文化培养
• 可观测性技术选型:开源vs商业、自研vs采购、技术路线选择
• 平台演进规划:技术债务管理、版本升级、技术路线图、团队建设

三、八大专题与六大岗位映射

 
 
专题名称 监控工程师 日志工程师 追踪工程师 APM工程师 SRE工程师 可观测性架构师
专题一:可观测性与运维概述 ★★★★★ ★★★★★ ★★★★★ ★★★★★ ★★★★★ ★★★★★
专题二:指标监控体系(Prometheus) ★★★★★ ★★★☆☆ ★★★☆☆ ★★★★☆ ★★★★★ ★★★★★
专题三:日志管理体系(ELK/EFK/Loki) ★★★☆☆ ★★★★★ ★★★☆☆ ★★★☆☆ ★★★★☆ ★★★★★
专题四:分布式链路追踪 ★★★☆☆ ★★★☆☆ ★★★★★ ★★★★☆ ★★★★☆ ★★★★★
专题五:应用性能监控(APM) ★★★☆☆ ★★★☆☆ ★★★★☆ ★★★★★ ★★★★☆ ★★★★★
专题六:可视化与仪表盘(Grafana) ★★★★★ ★★★★☆ ★★★★☆ ★★★★☆ ★★★★☆ ★★★★★
专题七:运维自动化与AIOps ★★★★☆ ★★★★☆ ★★★★☆ ★★★★☆ ★★★★★ ★★★★★
专题八:SRE与稳定性工程 ★★★★☆ ★★★★☆ ★★★★☆ ★★★★☆ ★★★★★ ★★★★★

四、学习路径建议

 
 
学员类型 推荐岗位路径 学习重点
运维入门 监控工程师 → SRE工程师 从基础监控到系统稳定性
开发转型 追踪工程师 / APM工程师 掌握链路追踪和应用性能分析
日志方向 日志工程师 → 可观测性架构师 从日志平台到统一可观测性
性能优化 APM工程师 + 追踪工程师 深入代码级性能分析和优化
系统稳定性 SRE工程师 + 混沌工程 掌握高可用和韧性设计
技术骨干 可观测性架构师 建立可观测性全局视野,主导平台演进

五、课程体系特色

 
 
特色 说明
双维度划分 按技术专题和岗位两个维度划分,满足不同学习需求
三大支柱完整覆盖 完整覆盖指标、日志、追踪三大可观测性支柱
岗位导向 六大岗位精准对应可观测性与运维领域主流岗位需求
分层递进 从工程师到架构师,形成完整能力进阶路径
SRE核心 融入SRE核心理念和实践方法,提升系统稳定性
工程实战 强调生产级可观测性平台建设和运维能力



如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>