何为AIOps?
AIOps的概念被越来越多的用户认可和接受, 通过算法对接运维大数据,用机器学习的手段来替代人工规则和专家经验, 可以有效的提高运维效率、缩短MTTR和提高SLA水平。 很多用户会有疑问, AIOps具体在哪些场景下如何使用来发挥其价值?本文给出了AIOps的理解和方法。
主要问题
建议
专注于IT运营转型的基础设施和运营领导者必须:
战略规划假设
到2023年,30%的大型企业将专门用于IT运营(AIOps)平台和数字体验监控(DEM)技术的人工智能监控其IT资产的非传统部分,高于2018年的2%。
介绍
监控工具蔓延威胁到CIO们成功检测和纠正可能阻碍数字业务成功的问题的能力。最初,监控是一个单点解决方案:例如,一个用于监控服务器的工具,另一个用于网络的工具,另一个用于存储的工具。业务重点是增长,更多客户或收入,没有战略思考集成监控工具集可以提供的见解。这导致IT运营团队内部多个不同的监控工具集合在一起。不同的监控解决方案开始重叠并侵占域(参见图1)。
图1. 今天的监测工具环境
客户表示,导航多个工具和仪表板会降低组织响应问题的能力。找到问题根本原因的时间会增加,从而放大对业务和收入的影响。企业领导者和首席信息官不会看到组织对监控工具的投资回报,并且不太可能分配额外的预算来解决问题。
CIO们如何能够简化运营效率和减少停机,以应对越来越多的重叠工具?该研究解释了CIO们如何使用AIOps“收听数据”来整合工具,简化操作并提高运营效率。
分析
使用AIOps工具聚合数据改善协作
CIO们必须通过适当且相关的指标,为IT组织内的团队提供对其IT基础架构和应用程序的全面,准确的可见性。在不同监控工具的环境中,操作人员需要了解来自各种来源的多种多种输入,增加了态势感知和诊断出错的可能性。
监控工具的发展使得汇总从各种来源收集的数据变得更加容易,并提供了根据运营商需求配置的集中度量和仪表板(参见图2)。这减少了针对不同受众的不同工具的需求。
图2. 通过AIOps层整合数据(日志/遥测)
监控数据的汇总通过以下方式减轻了不同工具带来的一些风险:
这些功能提供了特定的优势,包括根据受众需求提供自定义仪表板,减少使用整合数据集的开销,以及在更完整的数据集上分析和采取行动(包括自动化操作)的能力。
建议
CIO们必须:
为监测利益相关者提供切实可行的见解
任何技术更新都会破坏IT运营。CIO们必须在任何转型过程中尽量减少中断 – 包括监控工具转换。
在跨多个工具集成时,请确保充分了解这些工具捕获的数据。原始数据的简单聚合将使问题复杂化,而不是帮助运维团队。这些不同的整理和后处理监控数据的方法使工具整合的问题易于管理:
图3. 使用AIOps从多个源中提取数据
AIOps工具在处理多个数据源时的价值主张使它们处于一个独特的位置,通过三个主要趋势解决监控工具整合的问题:
管理活动和归档事件和日志流:热衷于优化其事件管理功能的组织可以利用AIOps工具,以与供应商/工具无关的方式聚合事件。模式识别和机器学习功能使AIOps工具能够优化各种来源的事件关联,从而减少手动更新事件关联规则的需要。管理事件,指标和日志流:具有管理和分析包含文本和指标的复杂数据流的资源的组织可以利用能够从多个来源聚合事件,日志和指标的分析平台。此类分析平台的一个非常基本的结果是提供与任何时间序列数据一致的上下文化日志和基于事件的信息,这使得操作可以更快地识别问题的根本原因。组织通常具有超出此基本用例的复杂用例,其还涉及为应用程序或服务所有者设计相关仪表板。管理指标流:一些数字企业更愿意纯粹使用遥测数据,而不是热衷于监控工具的事件和警报流的聚合。此类组织更喜欢专门从多个来源汇总指标的AIOps平台 – 直接来自IT基础架构或其他监控工具。统计技术用于表示IT基础架构中的异常。
建议
CIO们必须:
设定数据聚合技术的现实期望
CIO们不得忽视跟踪IT运营改进相关数据汇总工具使用情况的需求。通过工具整合投资必须跟踪以衡量IT运营改进的指标包括以下内容:
此外,围绕数据聚合的期望必须切合实际。CIO们必须在IT运营团队中建立关于所采用的数据聚合技术的限制的意识。使用AIOps平台处理任何形式的文本数据(无论是纯文本还是文本和指标)的问题如下:
建议
CIO们必须:
AIOps平台将在部署的第1天帮助进行根本原因分析。但是,由于每个环境都是独一无二的,因此计划投入时间和精力为IT运营团队提供数据,方案和交互,然后才能在中断期间实时有效地使用该工具。
证据
基于过去24个月内400多次互动的观察结果,最终用户因多种监控工具而引发了以下问题:
不同级别的IT运营团队的不同目标 – 基本事件管理与故障排除和执行根本原因分析的能力缺乏针对IT运营负责人和业务的集中式仪表板,能够在需要时深入了解详细信息由于不同的工具和对不同数据源的引用,各个团队之间的协作有限