可观测性与运维培训课程体系（选修）-中科信软培训中心

课程培训

数据方向培训

大厂培训

可视化技术

科学计算与工程仿真

机械设计培训

CFD培训

CAE培训

其它

设计方向

软考类

可观测性与运维培训课程体系（选修）

根据企业IT运维和可观测性体系建设需求，将“可观测性与运维”课程体系划分为以下八大专题课程（按技术专题划分）和六大岗位课程（按岗位划分），供学员根据技术方向和职业需求自主选修。

第一部分：按技术专题划分（八大专题）

专题一：可观测性与运维概述

项目	内容
课程名称	可观测性与运维概述
培训对象	IT运维人员、SRE工程师、平台工程师、技术管理者
培训目标	使学员掌握可观测性的核心概念、三大支柱和运维体系演进，建立数据驱动的运维思维。
培训内容	• 可观测性定义：可观测性与监控区别、可观测性三大支柱（指标/日志/追踪） • 运维体系演进：手工运维、自动化运维、数据驱动运维、AIOps演进路径 • SRE核心理念：服务等级指标/服务水平协议/服务等级目标、错误预算、消除琐事 • 监控体系架构：采集层、传输层、存储层、分析层、展示层五层架构 • 可观测性成熟度模型：基础监控、整合监控、可观测性、智能运维四阶段 • 开源与商业工具：Prometheus生态、ELK/EFK栈、Jaeger/SkyWalking • 运维数据价值：故障定位、容量规划、性能优化、成本分析 • 可观测性文化：数据驱动决策、无责备文化、持续改进 • 组织角色演变：从运维到SRE、平台工程、可观测性工程师 • 可观测性挑战：数据量爆炸、成本控制、采样策略、根因定位 • 运维自动化与可观测性：自愈系统、自动伸缩、故障自愈 • 行业发展趋势：eBPF技术、OpenTelemetry标准、AIOps智能化

专题二：指标监控体系（Prometheus）

项目	内容
课程名称	指标监控体系（Prometheus）深度实践
培训对象	监控工程师、SRE工程师、运维人员、平台工程师
培训目标	使学员掌握Prometheus监控体系核心技术，能够独立搭建企业级指标监控平台，实现多维数据采集、存储和查询。
培训内容	• Prometheus架构：Pull模型、时序数据库、服务发现、联邦集群 • 指标类型详解：Counter、Gauge、Histogram、Summary适用场景 • PromQL查询语言：即时查询、范围查询、聚合操作、函数应用、向量匹配 • 服务发现机制：文件发现、Consul发现、Kubernetes发现、自定义发现 • Exporter生态：Node Exporter、Blackbox Exporter、自定义Exporter开发 • 采集器配置：抓取间隔、超时设置、标签重写、过滤规则 • 告警规则管理：告警规则定义、分组抑制、静默配置、路由策略 • Alertmanager配置：接收器配置（邮件/钉钉/微信/Webhook）、模板定制 • 高可用方案：Thanos架构、接收端、查询端、压缩端、存储网关 • Cortex架构：多租户、长期存储、水平扩展、云原生部署 • Prometheus Operator：自定义资源、自动化部署、服务监控配置 • 最佳实践：指标命名规范、标签设计、采集性能优化、成本控制

专题三：日志管理体系（ELK/EFK/Loki）

项目	内容
课程名称	日志管理体系深度实践
培训对象	日志工程师、运维人员、SRE工程师、安全分析人员
培训目标	使学员掌握日志采集、处理、存储和查询技术，能够独立搭建企业级日志平台，实现日志集中管理和智能分析。
培训内容	• 日志体系架构：采集层、传输层、处理层、存储层、查询层架构 • ELK栈深度：Elasticsearch集群、Logstash管道、Kibana可视化 • EFK栈实践：Fluentd/Fluent Bit配置、转发、缓冲、过滤 • Elasticsearch集群：节点角色、分片与副本、索引生命周期、冷热分离 • 索引生命周期管理：ILM策略、滚动索引、数据迁移、删除策略 • Logstash配置：输入插件（file/beats/kafka）、过滤插件（grok/mutate） • 日志解析技术：正则表达式、grok模式、Json解析、Key-Value解析 • Beats轻量采集：Filebeat配置、多行合并、模块使用、负载均衡 • Loki轻量日志：Loki架构、Promtail配置、LogQL查询、标签索引 • 日志存储优化：压缩、冷热分离、降采样、归档策略 • 日志告警：Elastalert、Watcher、日志异常检测 • 日志安全与合规：审计日志、访问控制、数据脱敏、合规保留

专题四：分布式链路追踪

项目	内容
课程名称	分布式链路追踪技术深度实践
培训对象	微服务开发者、SRE工程师、性能优化工程师、平台架构师
培训目标	使学员掌握分布式追踪核心技术，能够独立部署Jaeger/Tempo等追踪系统，实现调用链分析和性能瓶颈定位。
培训内容	• 分布式追踪原理：Trace/Span概念、上下文传播、采样策略、追踪模型 • OpenTracing标准：Span标签、日志、引用关系、跨进程传播 • OpenTelemetry统一标准：OTel架构、Collector、SDK、自动埋点 • Jaeger架构：Agent、Collector、Query、UI、存储后端（Cassandra/Elasticsearch） • Jaeger部署实践：All-in-One模式、生产模式、Kubernetes部署 • 采样策略：概率采样、速率限制、远程采样、自适应采样 • 追踪数据存储：Elasticsearch、Cassandra、Kafka集成、数据生命周期 • 调用链分析：依赖图、延迟分布、错误追踪、慢调用定位 • 性能瓶颈分析：Span耗时、服务拓扑、热点追踪、火焰图 • SkyWalking架构：OAP服务器、存储、UI、语言探针 • SkyWalking实践：Java/.NET/Go/Python探针配置、服务监控 • Tempo轻量追踪：Tempo架构、与Grafana集成、TraceQL查询

专题五：应用性能监控（APM）

项目	内容
课程名称	应用性能监控（APM）深度实践
培训对象	APM工程师、应用运维、性能优化工程师、开发人员
培训目标	使学员掌握应用性能监控技术，能够独立部署APM系统，实现应用性能分析和代码级瓶颈定位。
培训内容	• APM核心理念：应用拓扑、事务追踪、代码级性能、用户体验监控 • 开源APM选型：Pinpoint、SkyWalking、Elastic APM、Apache SkyWalking • Pinpoint深度：字节码注入、数据采集、服务地图、调用栈分析 • Pinpoint部署：Collector集群、Web UI、HBase存储、Agent配置 • SkyWalking APM：OAP集群、存储选型（Elasticsearch/MySQL）、UI配置 • 语言探针配置：Java/.NET/Go/Python/Node.js探针接入 • 服务拓扑发现：服务依赖关系、调用量统计、健康状态 • 慢事务追踪：慢请求采样、调用栈分析、SQL性能分析 • 错误分析：异常捕获、错误统计、错误详情、错误趋势 • 性能指标：响应时间、吞吐量、错误率、Apdex评分 • 代码级性能：方法耗时、热点代码、内存分析、线程分析 • APM告警：阈值告警、异常检测、告警路由、通知集成

专题六：可视化与仪表盘（Grafana）

项目	内容
课程名称	可视化与仪表盘（Grafana）深度实践
培训对象	可视化工程师、运维人员、SRE工程师、数据分析师
培训目标	使学员掌握Grafana可视化平台核心功能，能够设计专业的数据仪表盘，实现多数据源统一可视化和告警。
培训内容	• Grafana架构：Grafana Server、数据源插件、仪表盘模型、用户认证 • 数据源配置：Prometheus、Loki、Elasticsearch、InfluxDB、MySQL集成 • 仪表盘设计原则：信息层级、图表选择、配色方案、布局规划 • 面板类型详解：时间序列、表格、热图、直方图、统计、仪表 • 查询编辑器：PromQL、LogQL、SQL集成、变量模板、转换函数 • 变量模板：查询变量、常量变量、间隔变量、多值变量、级联变量 • 告警配置：告警规则、通知渠道（钉钉/微信/邮件）、静默管理 • 团队协作：组织管理、用户角色、文件夹权限、仪表盘版本控制 • 插件生态：Panel插件、数据源插件、App插件、自定义开发 • Grafana Loki集成：日志可视化、标签过滤、日志查询、统计图表 • Grafana Tempo集成：追踪可视化、TraceQL查询、服务拓扑 • 企业级特性：Grafana Enterprise、RBAC、报表、白标、认证集成

专题七：运维自动化与AIOps

项目	内容
课程名称	运维自动化与AIOps实践
培训对象	SRE工程师、自动化运维工程师、平台架构师、技术管理者
培训目标	使学员掌握运维自动化和智能运维（AIOps）技术，能够构建自愈系统和智能告警体系。
培训内容	• 自动化运维体系：自动化层次模型、自动化成熟度、自动化度量 • 事件管理自动化：告警收敛、事件关联、自动分派、自动升级 • 故障自愈系统：故障检测、根因分析、自动恢复、自愈策略 • 混沌工程：稳态假设、实验设计、爆炸半径、自动化实验 • 告警降噪：重复告警聚合、相似告警聚类、依赖关系分析 • 异常检测算法：时序异常检测（3Sigma/移动平均/机器学习） • 根因定位：调用链分析、关联分析、多维下钻、疑似根因推荐 • 智能预测：容量预测、趋势分析、异常预警、资源优化 • AIOps平台架构：数据采集、特征工程、算法模型、决策执行 • 日志异常检测：模式识别、聚类分析、语义理解 • 运维知识库：故障模式库、解决方案库、经验沉淀、知识图谱 • AIOps实践案例：智能告警、故障自愈、容量预测、成本优化

专题八：SRE与稳定性工程

项目	内容
课程名称	SRE与稳定性工程实践
培训对象	SRE工程师、运维负责人、平台架构师、技术管理者
培训目标	使学员掌握SRE核心方法论和实践技术，能够建立服务等级指标体系，构建高可用系统架构。
培训内容	• SRE核心理念：服务等级指标/服务水平协议/服务等级目标、错误预算、消除琐事 • 服务等级指标定义：可用性、延迟、吞吐量、错误率、饱和度 • 服务等级目标设定：目标值确定、燃烧率、误差预算计算 • 错误预算策略：发布速率控制、故障容忍度、风险接受 • 容量规划：负载测试、容量评估、弹性伸缩、成本优化 • 混沌工程实践：稳态假设、实验设计、爆炸半径控制、自动化实验 • 故障管理：故障分级、响应流程、事后复盘、改进跟踪 • 分布式系统韧性：重试退避、熔断降级、限流保护、幂等性设计 • 高可用架构设计：冗余设计、故障转移、多活架构、容灾策略 • 可观测性驱动开发：埋点规范、业务监控、用户体验监测 • SRE文化落地：跨团队协作、知识共享、技术创新激励 • SRE工具链：监控告警、日志分析、追踪系统、混沌工程平台

第二部分：按岗位划分（六大岗位）

岗位一：监控工程师

项目	内容
课程名称	监控工程师实战课程
岗位定位	负责企业监控体系建设，包括指标采集、告警配置、仪表盘设计，保障系统可观测性基础能力。
培训目标	使学员掌握指标监控核心技术，能够独立搭建Prometheus监控平台，设计专业的监控仪表盘和告警体系。
培训对象	监控工程师、运维人员、SRE工程师、平台工程师
核心课程	• 可观测性与运维概述：可观测性三大支柱、监控体系架构 • 指标监控体系（Prometheus）：Prometheus架构、指标类型、服务发现 • PromQL查询语言：即时查询、范围查询、聚合操作、函数应用 • Exporter生态：Node Exporter、Blackbox Exporter、自定义Exporter • 告警规则管理：告警规则定义、分组抑制、静默配置 • Alertmanager配置：接收器配置（邮件/钉钉/微信）、模板定制 • 可视化与仪表盘（Grafana）：数据源配置、面板类型、变量模板 • 仪表盘设计原则：信息层级、图表选择、配色方案、布局规划 • 高可用方案：Thanos架构、接收端、查询端、压缩端 • Prometheus Operator：自定义资源、自动化部署、服务监控配置 • 监控指标体系：RED方法、USE方法、黄金指标 • 最佳实践：指标命名规范、标签设计、采集性能优化

岗位二：日志工程师

项目	内容
课程名称	日志工程师实战课程
岗位定位	负责企业日志平台建设，包括日志采集、解析、存储和分析，保障日志数据的集中管理和查询效率。
培训目标	使学员掌握日志管理核心技术，能够独立搭建ELK/EFK日志平台，实现日志的集中采集、解析和可视化。
培训对象	日志工程师、运维人员、安全分析人员、平台工程师
核心课程	• 可观测性与运维概述：日志体系架构、日志价值 • 日志管理体系：ELK/EFK/Loki架构对比、选型策略 • Elasticsearch集群：节点角色、分片与副本、索引生命周期 • Logstash配置：输入插件（file/beats/kafka）、过滤插件（grok/mutate） • 日志解析技术：正则表达式、grok模式、Json解析、Key-Value解析 • Beats轻量采集：Filebeat配置、多行合并、模块使用、负载均衡 • Kibana可视化：数据探索、仪表盘设计、日志分析、图表定制 • 索引生命周期管理：ILM策略、滚动索引、数据迁移、删除策略 • Loki轻量日志：Loki架构、Promtail配置、LogQL查询、标签索引 • 日志告警：Elastalert配置、Watcher、日志异常检测 • 日志安全与合规：审计日志、访问控制、数据脱敏、合规保留 • 日志存储优化：压缩、冷热分离、降采样、归档策略

岗位三：链路追踪工程师

项目	内容
课程名称	链路追踪工程师实战课程
岗位定位	负责分布式追踪系统建设，帮助研发团队定位性能瓶颈和故障根因，提升微服务可观测性。
培训目标	使学员掌握分布式追踪核心技术，能够独立部署Jaeger/SkyWalking追踪系统，实现调用链分析和性能诊断。
培训对象	追踪工程师、微服务开发者、SRE工程师、性能优化工程师
核心课程	• 可观测性与运维概述：分布式追踪原理、Trace/Span概念 • 分布式链路追踪：OpenTracing/OpenTelemetry标准、上下文传播 • Jaeger架构：Agent、Collector、Query、UI、存储后端 • Jaeger部署实践：All-in-One模式、生产模式、Kubernetes部署 • 采样策略：概率采样、速率限制、远程采样、自适应采样 • 调用链分析：依赖图、延迟分布、错误追踪、慢调用定位 • 性能瓶颈分析：Span耗时、服务拓扑、热点追踪、火焰图 • SkyWalking架构：OAP服务器、存储、UI、语言探针 • SkyWalking实践：Java/.NET/Go/Python探针配置、服务监控 • Tempo轻量追踪：Tempo架构、与Grafana集成、TraceQL查询 • 追踪数据存储：Elasticsearch/Cassandra/Kafka集成、数据生命周期 • 业务追踪实践：自定义Span、业务标签、业务日志关联

岗位四：APM工程师

项目	内容
课程名称	APM工程师实战课程
岗位定位	负责应用性能监控平台建设，深入分析应用性能问题，协助研发团队优化代码性能。
培训目标	使学员掌握应用性能监控技术，能够独立部署Pinpoint/SkyWalking APM系统，实现代码级性能分析。
培训对象	APM工程师、应用运维、性能优化工程师、开发人员
核心课程	• 可观测性与运维概述：APM核心理念、应用拓扑、事务追踪 • 应用性能监控（APM）：开源APM选型（Pinpoint/SkyWalking/Elastic APM） • Pinpoint深度：字节码注入、数据采集、服务地图、调用栈分析 • Pinpoint部署：Collector集群、Web UI、HBase存储、Agent配置 • SkyWalking APM：OAP集群、存储选型、UI配置、语言探针 • 服务拓扑发现：服务依赖关系、调用量统计、健康状态 • 慢事务追踪：慢请求采样、调用栈分析、SQL性能分析 • 错误分析：异常捕获、错误统计、错误详情、错误趋势 • 性能指标：响应时间、吞吐量、错误率、Apdex评分 • 代码级性能：方法耗时、热点代码、内存分析、线程分析 • APM告警：阈值告警、异常检测、告警路由、通知集成 • 性能优化实践：慢SQL优化、缓存优化、代码重构、架构优化

岗位五：SRE工程师

项目	内容
课程名称	SRE工程师实战课程
岗位定位	负责系统稳定性保障，通过服务等级指标定义、容量规划、混沌工程等手段提升系统韧性。
培训目标	使学员掌握SRE核心方法论，能够建立服务等级指标体系，设计高可用系统架构，实施混沌工程实践。
培训对象	SRE工程师、运维负责人、平台架构师、技术管理者
核心课程	• 可观测性与运维概述：SRE核心理念、服务等级指标/服务水平协议/服务等级目标、错误预算 • 指标监控体系（Prometheus）：黄金指标、RED方法、USE方法 • 服务等级指标定义：可用性、延迟、吞吐量、错误率、饱和度 • 服务等级目标设定：目标值确定、燃烧率、误差预算计算 • 错误预算策略：发布速率控制、故障容忍度、风险接受 • 容量规划：负载测试、容量评估、弹性伸缩、成本优化 • 混沌工程实践：稳态假设、实验设计、爆炸半径控制、Chaos Mesh • 故障管理：故障分级、响应流程、事后复盘、改进跟踪 • 分布式系统韧性：重试退避、熔断降级、限流保护、幂等性设计 • 高可用架构设计：冗余设计、故障转移、多活架构、容灾策略 • 可观测性驱动开发：埋点规范、业务监控、用户体验监测 • SRE工具链：监控告警、日志分析、追踪系统、混沌工程平台

岗位六：可观测性架构师

项目	内容
课程名称	可观测性架构师进阶课程
岗位定位	负责企业可观测性体系整体规划，整合指标、日志、追踪三大数据源，构建统一可观测性平台。
培训目标	使学员具备可观测性全局视野，能够设计企业级可观测性平台架构，主导技术选型和平台演进。
培训对象	资深SRE、技术负责人、平台架构师、运维总监
核心课程	• 可观测性与运维概述：可观测性成熟度模型、统一可观测性理念 • 可观测性平台架构：指标/日志/追踪统一采集、存储、查询设计 • OpenTelemetry标准：OTel Collector、自动埋点、多语言SDK集成 • Prometheus生态：Thanos/Cortex企业级架构、长期存储、全局视图 • 日志平台架构：ELK/EFK/Loki选型、冷热分离、归档策略 • 追踪平台架构：Jaeger/Tempo/SkyWalking选型、采样策略、存储优化 • Grafana统一可视化：多数据源集成、统一仪表盘、全局告警 • 可观测性成本优化：采样策略、降采样、数据保留、压缩技术 • AIOps智能运维：异常检测、根因分析、容量预测、智能告警 • 可观测性组织治理：团队角色、流程规范、知识沉淀、文化培养 • 可观测性技术选型：开源vs商业、自研vs采购、技术路线选择 • 平台演进规划：技术债务管理、版本升级、技术路线图、团队建设

三、八大专题与六大岗位映射

专题名称	监控工程师	日志工程师	追踪工程师	APM工程师	SRE工程师	可观测性架构师
专题一：可观测性与运维概述	★★★★★	★★★★★	★★★★★	★★★★★	★★★★★	★★★★★
专题二：指标监控体系（Prometheus）	★★★★★	★★★☆☆	★★★☆☆	★★★★☆	★★★★★	★★★★★
专题三：日志管理体系（ELK/EFK/Loki）	★★★☆☆	★★★★★	★★★☆☆	★★★☆☆	★★★★☆	★★★★★
专题四：分布式链路追踪	★★★☆☆	★★★☆☆	★★★★★	★★★★☆	★★★★☆	★★★★★
专题五：应用性能监控（APM）	★★★☆☆	★★★☆☆	★★★★☆	★★★★★	★★★★☆	★★★★★
专题六：可视化与仪表盘（Grafana）	★★★★★	★★★★☆	★★★★☆	★★★★☆	★★★★☆	★★★★★
专题七：运维自动化与AIOps	★★★★☆	★★★★☆	★★★★☆	★★★★☆	★★★★★	★★★★★
专题八：SRE与稳定性工程	★★★★☆	★★★★☆	★★★★☆	★★★★☆	★★★★★	★★★★★

四、学习路径建议

学员类型	推荐岗位路径	学习重点
运维入门	监控工程师 → SRE工程师	从基础监控到系统稳定性
开发转型	追踪工程师 / APM工程师	掌握链路追踪和应用性能分析
日志方向	日志工程师 → 可观测性架构师	从日志平台到统一可观测性
性能优化	APM工程师 + 追踪工程师	深入代码级性能分析和优化
系统稳定性	SRE工程师 + 混沌工程	掌握高可用和韧性设计
技术骨干	可观测性架构师	建立可观测性全局视野，主导平台演进

五、课程体系特色

特色	说明
双维度划分	按技术专题和岗位两个维度划分，满足不同学习需求
三大支柱完整覆盖	完整覆盖指标、日志、追踪三大可观测性支柱
岗位导向	六大岗位精准对应可观测性与运维领域主流岗位需求
分层递进	从工程师到架构师，形成完整能力进阶路径
SRE核心	融入SRE核心理念和实践方法，提升系统稳定性
工程实战	强调生产级可观测性平台建设和运维能力

如果您想学习本课程，请预约报名
如果没找到合适的课程或有特殊培训需求，请订制培训
除培训外，同时提供相关技术咨询与技术支持服务，有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点：
海量专家资源，精准匹配相关行业，相关项目专家，针对实际需求，顾问式咨询，互动式授课，案例教学，小班授课，实际项目演示，快捷高效，省时省力省钱。

专家力量：
中国科学院软件研究所，计算研究所高级研究人员
oracle,微软，vmware，MSC,Ansys，candence,Altium,达索等大型公司高级工程师，项目经理，技术支持专家
中科信软培训中心，资深专家或讲师
大多名牌大学，硕士以上学历，相关技术专业，理论素养丰富
多年实际项目经历，大型项目实战案例，热情，乐于技术分享
针对客户实际需求，案例教学，互动式沟通，学有所获

报名表下载

点击进入报名表

联系我们更多>>

咨询电话：010-62883247

4007991916

咨询邮箱：soft@info-soft.cn

微信咨询

随时听讲课

聚焦技术实践