一、培训对象
-
运维工程师、SRE工程师、平台运维负责人
-
监控系统管理员、自动化运维平台使用者
-
计划引入或已部署AIOps平台的企业技术团队
二、培训目标
-
掌握AIOps平台的核心功能架构与数据流转机制
-
能够独立进行告警降噪、异常检测、根因分析等智能运维操作
-
掌握平台规则与算法参数的调优方法,降低误报与漏报率
-
结合业务场景设计智能运维策略,提升故障发现与定位效率
三、培训内容
一、AIOps平台整体架构与核心概念
讲解AIOps平台的数据接入层、算法引擎层、可视化层,以及指标、日志、调用链三大数据源在平台中的融合方式。
二、平台安装部署与基础配置
演示典型AIOps平台(如腾讯云AIOps、阿里云SmartOps或开源平台)的环境准备、组件部署、基础账号与权限配置。
三、数据源接入与管理
学习如何接入Prometheus、Elasticsearch、Jaeger等系统的数据,配置数据清洗标签、时间对齐与缺失值处理策略。
四、智能告警与静默降噪配置
讲解基于时间序列的告警聚合、依赖关系静默、告警风暴抑制等策略,以及动态阈值与静态阈值的适用场景。
五、异常检测算法原理与参数调优
针对波动性检测、周期性检测、同比环比检测等算法,讲解敏感度、窗口长度、置信度等关键参数的调优方法。
六、根因分析功能的使用
通过调用链与拓扑关系,学习如何快速定位故障的“源头服务”或“底层资源”,并验证分析结果的有效性。
七、日志智能分析与模式聚类
训练平台自动识别高频日志模板,提取异常日志模式,并与告警或变更事件进行关联。
八、预测性容量分析
利用历史时序数据预测未来若干时间段的CPU、内存、磁盘使用趋势,并设置主动预警条件。
九、事件自动诊断脚本与执行
配置故障触发后的自动诊断Action(如抓堆栈、查连接数、执行自愈脚本),并控制执行范围与熔断机制。
十、平台健康度自监控与巡检
学习查看AIOps组件自身的运行状态、数据延迟、算法执行耗时等内部监控项,保证平台稳定。
十一、算法模型版本管理与效果评估
介绍如何对比不同算法版本的F1分数、误报率、召回率,并完成模型热更新或回滚。
十二、典型业务场景实战演练
结合电商大促、微服务雪崩、数据库连接池泄漏等场景,从接到告警到根因输出的全流程演练。
如果您想学习本课程,请
预约报名
如果没找到合适的课程或有特殊培训需求,请
订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请
服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。
专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获