概述
基于人工智能的操作 (AIOps) 是人工智能和传统 AM/IM 操作的融合。与所有其他领域一样,AI 将对运营管理产生重大影响。当 AI 的电源应用于操作时,它将重新定义应用程序和支持应用程序/基础结构的管理方式。
多个应用程序同时运行可生成大量数据。数据从网络层直接生成到 API 调用对最终用户的延迟。用户期望获得应用程序体验,而不会出现丝毫的性能中断。
可以从堆栈的不同层获取数据,这成为推断见解的丰富来源。操作的复杂性导致了算法 IT 操作 (AIOps) 平台的创建。平台解决方案使用 AI 和 ML 从监控数据中获得见解,并通过增强人工决策来推动自动化解决方案。
重要用例和解决方案
应用程序监控
应用程序指标跟踪响应时间、请求/分钟、时间刻度加班错误率以及识别其行为趋势等内容。此外,还捕获了 CPU 利用率、内存利用率和负载平均值等基础结构指标,以了解基础结构层如何支持以满足应用程序的不同负载条件。随着应用程序复杂性的增加,很难从预期模式检测异常。如果被忽视,这些异常可能会导致潜在的中断。
解决 方案
可以在不同作用域(包括应用程序级别、服务级别、事务级别和外部依赖项)分析和发现更改模式。首先,确定什么构成正常的系统行为,然后辨别与正常系统行为的背离。AIOps 可以通过精确定位源来准确突出显示这些异常值,这有助于实时更好地实现 RCA。此外,它还可以防止潜在的中断和基础结构中断。
事务跟踪
业务事务范围从点对点应用程序连接之间的简单同步消息交换到更复杂的异步通信。要跟踪事务,需要流一个复杂的跟踪和监视解决方案。长时间运行的多步异步事务传输 IT 基础架构,跨越多种技术、层等。
解决 方案
复杂的交易经常变形和拆分,从而通过标记或统计采样技术挑战标准跟踪和分析。通过检查方法调用和单个消息有效负载内容,关联它们并呈现任何挂起或现有行为和性能中的违规的直观可视化,将事务拼接在一起
本地化缺陷
管理软件质量是软件开发生命周期中的一大问题进入生产环境之前,识别和修复缺陷非常重要。生产中发现的任何缺陷都会产生巨大的成本。在此上下文中,查找 Bug 被认为是最耗时且最具挑战性的活动,因为可用资源有限。因此,在软件工程中需要全/半自动化技术来增强手动调试过程。如果开发人员获取了一些提示,其中 Bug 可能被本地化,则调试将变得更加高效
解决 方案
各种图形挖掘算法/技术可用于本地化软件缺陷。这些技术依赖于检测故障和传递跟踪之间的区分子图。当故障未以罕见的代码模式显示时,这些方法可能不适用。另一方面,许多方法侧重于选择可能有缺陷的程序组件(语句或谓词),然后根据这些组件的可疑程度和执行跟踪上下文根据控制流图对它们进行排名
到达基线
性能基准确定应用程序和基础结构的组件在不同的负载条件下的性能。负载条件为”正常”、”操作”、”准”、”应力”、”峰值”、”断点”等,基线是一组规则或阈值,用于单个指标的阈值,预计在上限和下限之间有所不同。传统上,这些关联是通过在收集在定义的时间间隔内收集的性能数据并实时部署以在发生任何性能偏差时通知的性能数据后运行机器学习算法来建模的。这种方法非常适合组件,但与现代开发方法的”相关性”点无效。
解决 方案:
超融合基础架构管理、域驱动应用程序开发、分布式计算激增、多态编程和持久性的影响改变了软件组件的开发和部署方式。需要不断在动态扩展/缩小的基础基础架构之上部署软件组件的频繁更改。这种范式转变强制模型构建练习使用近实时数据,以保持与应用程序和基础结构组件中的最新更改相关。这些模型需要使用实时源来学习新规则并不断发展。
预测问题
APM 中的智能警报是动态检测异常。要使警报具有智能性,该工具需要可配置以了解应用程序的性质及其行为,以便它可以检测异常。定义静态阈值很常见;例如,如果此服务呼叫需要三秒钟以上才能返回,则引发警报。但是,识别要监视的重要指标及其针对不同应用程序使用模式的阈值是非常繁琐的,因此需要智能方法来基准应用程序的正常性,并在出现异常行为时发出通知如今,工具足够智能,可以了解应用程序的行为并建立基线,允许您定义在分析基于基线的请求时要使用的策略,并在存在需要查看的实际问题时智能警报。