课程培训
可观测性与运维数据分析培训课程大纲(选修)

可观测性与运维数据分析培训课程大纲(选修)

专题划分

专题一:可观测性基础与运维数据分析
专题二:指标体系与指标数据分析
专题三:日志管理与日志分析
专题四:分布式追踪与调用链分析
专题五:多源数据融合分析
专题六:SLO与错误预算分析
专题七:异常检测与智能告警
专题八:容量规划与性能分析
专题九:故障诊断与根因分析
专题十:可视化与数据分析平台
专题十一:AIOps与机器学习应用
专题十二:行业实践与演进趋势


专题一:可观测性基础与运维数据分析

  1. 可观测性定义与三大支柱(指标、日志、追踪)

  2. 运维数据分析的目标:故障定位、性能优化、容量规划、安全分析

  3. 可观测性与传统监控的区别:从被动告警到主动洞察

  4. 运维数据生命周期:采集、传输、存储、分析、可视化

  5. 高基数数据与维度分析:标签、维度、聚合

  6. 数据分析基本方法:统计分析、趋势分析、相关性分析

  7. 运维数据分析的挑战:数据量、多样性、实时性

  8. OpenTelemetry标准与统一数据采集

  9. 运维数据治理:质量、成本、安全

  10. 可观测性成熟度模型与数据分析能力演进

  11. 组织数据驱动文化的建设

  12. 案例解析:基于可观测性数据的典型分析场景


专题二:指标体系与指标数据分析

  1. 指标类型:计数器(Counter)、仪表盘(Gauge)、直方图(Histogram)、摘要(Summary)

  2. 指标设计原则:黄金指标(延迟、流量、错误、饱和度)

  3. Prometheus核心概念:Pull模型、服务发现、PromQL

  4. PromQL高级分析:rate、irate、histogram_quantile、聚合运算

  5. 指标相关性分析:基于标签的关联、时序对齐

  6. 趋势分析与预测:线性回归、季节性分解

  7. 指标异常检测:统计方法(3σ、移动平均)、机器学习方法

  8. 多维下钻分析:按标签分组、过滤、对比

  9. 业务指标埋点与自定义Exporter开发

  10. 指标存储与降采样:Thanos、Mimir

  11. 指标分析仪表盘设计:Grafana变量、模板

  12. 综合实战:基于PromQL分析服务延迟波动并定位原因


专题三:日志管理与日志分析

  1. 日志类型与结构:系统日志、应用日志、安全日志、结构化日志

  2. 日志采集架构:Agent采集、缓冲、传输(Filebeat/Fluentd)

  3. 日志解析与字段提取:Grok、正则、JSON解析

  4. 日志存储与索引:Elasticsearch原理、分片、索引生命周期

  5. 日志查询语言:Kibana Query Language(KQL)、Lucene语法

  6. LogQL(Loki查询语言):标签过滤、管道操作、聚合分析

  7. 日志统计分析:频率统计、Top N、异常模式发现

  8. 日志关联分析:与指标、追踪关联(Trace ID)

  9. 日志告警:基于日志内容的阈值告警、模式匹配

  10. 日志采样与成本控制:动态采样、头/尾采样

  11. 日志数据湖:长期存储与离线分析(ClickHouse)

  12. 综合实战:基于ELFK/Loki分析Nginx访问日志并发现热点URL


专题四:分布式追踪与调用链分析

  1. 分布式追踪原理:Trace、Span、Context传播

  2. 追踪标准:OpenTracing、OpenCensus、OpenTelemetry

  3. 采样策略:概率采样、速率采样、动态采样

  4. 追踪数据模型:Span标签、事件、日志

  5. 追踪后端存储:Jaeger、Zipkin、Tempo、SkyWalking

  6. 调用链查询与分析:服务拓扑、延迟分布、错误链路

  7. 瓶颈分析方法:慢Span识别、关键路径分析

  8. 追踪数据与指标/日志关联:Trace ID注入、统一检索

  9. 分布式追踪在微服务排障中的应用

  10. 基于追踪的容量分析:依赖QPS、延迟贡献

  11. 无侵入追踪:eBPF、服务网格(Istio)

  12. 综合实战:基于Jaeger分析下单链路性能瓶颈


专题五:多源数据融合分析

  1. 数据孤岛问题:指标、日志、追踪分离

  2. 统一采集代理:OpenTelemetry Collector

  3. 数据关联技术:Trace ID注入日志、指标关联标签

  4. 统一存储与查询:Thanos + Loki + Tempo联合查询

  5. Grafana Explore跨数据源关联分析

  6. 基于时间轴的关联分析:指标突增对应日志异常

  7. 多维下钻:从告警到日志到追踪

  8. 业务与技术指标的关联:转化率与系统延迟

  9. 基于标签的聚合分析:统一标签规范

  10. 数据融合分析平台架构设计

  11. 数据治理在融合分析中的重要性

  12. 综合实战:通过Grafana关联分析指标、日志、追踪定位故障


专题六:SLO与错误预算分析

  1. SLO概念:SLI、SLO、SLA的定义与关系

  2. SLI设计与数据来源:从指标、日志、追踪定义可用性、延迟

  3. 多维度SLO:用户维度、服务维度、地域维度

  4. 错误预算计算与可视化

  5. 错误预算消耗趋势分析

  6. SLO与发布决策:错误预算门禁

  7. 剩余错误预算预测:基于历史数据预测消耗

  8. SLO未达成分析:根因、影响范围、改进措施

  9. 基于SLO的容量规划

  10. SLO报告与仪表盘设计

  11. 多服务SLO聚合与业务健康度评分

  12. 综合实战:基于Prometheus数据定义SLO并分析错误预算消耗


专题七:异常检测与智能告警

  1. 异常检测基础:静态阈值 vs 动态阈值

  2. 统计方法:移动平均、标准差、指数平滑

  3. 时间序列异常检测算法:3σ、CUSUM、Holt-Winters

  4. 机器学习方法:孤立森林、LSTM、变分自编码器

  5. 告警规则设计原则:简单、可行动、避免重复

  6. 告警聚合与抑制:基于规则、时间窗口、依赖关系

  7. 告警降噪策略:动态阈值、告警压缩

  8. 告警自愈机制:Webhook触发自动化修复

  9. 告警事件管理与复盘

  10. 告警有效性度量:准确率、召回率、MTTA/MTTR

  11. 智能根因分析:基于拓扑、日志、指标关联

  12. 综合实战:配置机器学习异常检测并验证告警效果


专题八:容量规划与性能分析

  1. 容量规划目标:保证服务SLO下的资源合理配置

  2. 容量分析数据来源:指标(资源利用率、QPS)、日志(请求量)、追踪(延迟)

  3. 负载预测方法:趋势分析、季节性模型(SARIMA)、机器学习

  4. 资源需求模型:线性模型、排队论模型

  5. 压测与性能基线分析

  6. 性能瓶颈识别:资源瓶颈、锁竞争、IO等待

  7. 容量报告与仪表盘:剩余容量、风险预警

  8. 弹性伸缩策略与容量联动:HPA、Cluster Autoscaler

  9. 云资源成本优化与容量规划结合

  10. 业务增长与容量规划:大促容量预估

  11. 容量规划复盘与改进

  12. 综合实战:基于历史监控数据预测未来容量需求


专题九:故障诊断与根因分析

  1. 故障诊断流程:发现、定位、恢复、复盘

  2. 基于可观测性数据的故障发现:告警、指标异常、日志错误

  3. 故障定位方法:排除法、二分法、对比法

  4. 根因分析常用技术:火焰图、时序对比、相关性分析

  5. 微服务故障传播链分析:服务拓扑、调用链

  6. 日志异常模式识别:错误日志聚类

  7. 根因推荐系统:基于知识图谱、机器学习

  8. 故障诊断工具:Arthas、btrace、perf

  9. 分布式追踪在故障定位中的应用

  10. 故障复盘与知识库建设

  11. 混沌工程与故障演练

  12. 综合实战:模拟故障并利用可观测性数据完成根因分析


专题十:可视化与数据分析平台

  1. 可视化在运维数据分析中的作用

  2. Grafana核心功能:数据源、仪表盘、变量、告警

  3. 仪表盘设计原则:清晰、层次分明、可下钻

  4. 业务仪表盘:核心指标、用户旅程

  5. 技术仪表盘:资源、中间件、应用性能

  6. 统一可观测性平台架构:Prometheus + Loki + Tempo + Grafana

  7. 数据分析平台需求:多维分析、自助查询、报表

  8. 数据导出与集成:与BI工具(Tableau、PowerBI)对接

  9. 运维数据湖:数据存储、离线分析(Spark、ClickHouse)

  10. 自助分析能力:SQL on Logs、PromQL即席查询

  11. 平台性能与成本优化

  12. 综合实战:设计企业级可观测性数据分析平台架构


专题十一:AIOps与机器学习应用

  1. AIOps定义与价值:智能化运维、辅助决策

  2. 机器学习在运维数据分析中的应用场景

  3. 异常检测:无监督、监督、时序异常

  4. 聚类分析:日志聚类、指标模式聚类

  5. 根因分析:基于因果推断、关联规则

  6. 趋势预测:时间序列预测模型

  7. 告警降噪与事件压缩:智能聚合

  8. 智能变更风险评估

  9. 运维知识图谱构建与应用

  10. AIOps落地挑战:数据质量、模型解释性、工程化

  11. 开源AIOps工具:Analytics Zoo、ElastAlert、Kapacitor

  12. 综合实战:基于机器学习实现指标异常检测并集成告警


专题十二:行业实践与演进趋势

  1. 互联网行业可观测性与数据分析实践

  2. 金融行业运维数据分析特点:合规、实时、精准

  3. 制造行业IoT数据与可观测性融合

  4. 电商大促期间的运维数据分析实战

  5. 游戏行业实时数据分析与用户体验优化

  6. eBPF技术对可观测性的革新

  7. 持续分析(Profiling)与性能分析结合

  8. 可观测性标准化的未来:OpenTelemetry成为主流

  9. 数据编织(Data Fabric)与主动可观测性

  10. 可观测性与FinOps融合:成本数据分析

  11. 企业可观测性成熟度提升路径

  12. 综合大作业:制定企业可观测性与运维数据分析三年规划





如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>