智能运维与AIOps培训课程大纲(选修)
培训对象
-
运维工程师、SRE(站点可靠性工程师)
-
运维开发(DevOps)人员、平台工程师
-
数据分析师、算法工程师(希望进入运维领域)
-
运维架构师、技术负责人
-
需要了解AIOps的企业IT管理者
培训目标
-
理解智能运维(AIOps)的核心理念、发展历程与价值
-
掌握运维数据采集、处理、存储与分析的基础技术
-
熟悉机器学习在运维场景中的常见算法与应用
-
能够运用AIOps技术实现异常检测、告警降噪、根因分析、容量预测等
-
了解AIOps平台架构设计与工具选型
-
通过行业案例掌握AIOps落地实践与演进路线
培训内容
-
智能运维(AIOps)概述:AIOps的定义、演进历程、核心价值与Gartner框架;AIOps与可观测性、DevOps、SRE的关系;典型应用场景与成熟度模型。
-
运维数据采集与处理:多源运维数据(指标、日志、追踪、事件)的采集技术;常用采集工具(Prometheus、Fluentd、OpenTelemetry)的使用;数据清洗、格式化、丰富与标签统一;数据缓冲与传输(Kafka)实践。
-
运维数据存储与查询:时序数据库(Prometheus、Thanos)、全文检索引擎(Elasticsearch)、列式存储(ClickHouse)的选型与对比;数据生命周期管理(降采样、过期策略);统一查询语言(PromQL、LogQL、TraceQL)。
-
机器学习基础与运维场景:监督/无监督/强化学习在运维中的应用;常见算法(回归、分类、聚类、时序预测)与模型评估指标;特征工程与模型解释性(SHAP/LIME)。
-
异常检测技术:静态阈值与动态阈值方法;统计方法(3σ、移动平均、CUSUM);时间序列分解(STL)与预测模型(ARIMA、Prophet、LSTM);无监督异常检测(孤立森林、自编码器);多维度异常检测与日志异常检测。
-
告警降噪与智能聚合:告警管理挑战与降噪策略;基于规则与基于机器学习的告警聚类;告警依赖分析与抑制机制;告警事件压缩与生命周期管理;告警有效性度量与自愈响应。
-
根因分析与定位:基于拓扑的根因分析(服务依赖、调用链传播);基于指标的根因分析(指标关联、维度下钻);基于日志的根因分析(异常日志聚类);多维下钻算法(HotSpot、iDice);因果推断与根因推荐系统。
-
容量预测与智能扩缩容:容量规划数据来源与预测方法(时序预测、周期性模型);深度学习时序预测(LSTM、Transformer);预测驱动的弹性伸缩策略(HPA、VPA);容量报告与成本优化。
-
智能运维平台架构:AIOps平台的整体架构(采集、存储、分析、展示、行动层);实时与离线计算引擎(Flink、Spark)的应用;算法模型管理与在线推理;统一API与可视化设计(Grafana);平台可观测性与自身监控。
-
AIOps算法与模型实践:典型运维算法详解(异常检测、日志聚类、告警聚合、根因分析);开源算法库(ElastAlert、Kapacitor、Analytics Zoo)的使用;算法性能评估与持续迭代。
-
AIOps典型应用场景:智能监控告警(动态阈值、告警聚合);智能故障诊断(根因分析、故障自愈);智能容量管理(容量预测、弹性伸缩);智能日志与调用链分析;智能业务分析与成本优化;安全运维(异常行为检测)。
-
AIOps落地实践与演进趋势:AIOps实施路线图(评估、试点、推广);数据治理与组织能力建设;行业案例(互联网、金融、制造);大语言模型在运维中的应用(智能问答、根因推理);eBPF对AIOps的影响;可观测性与AIOps融合;未来三年技术趋势与企业应对。
如果您想学习本课程,请
预约报名
如果没找到合适的课程或有特殊培训需求,请
订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请
服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。
专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获