云智慧 AIOps 社区是由云智慧发起,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交流社区。该社区致力于传播 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们共同解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设健康共赢的AIOps 开发者生态。
引言
近年来,随着IT互联网的迅速发展,数字经济与数字生活对人们日常生活的影响也逐渐加深。如下图右下角所示,部分APP已经改变了人们的衣食住行。此外,新冠疫情在全球的爆发也使得全球数字化发展的速度得到了进一步提升。在面对疫情不确定性挑战中,各个行业都意识到了数字化转型对企业的重要性。 下图2021年联合国发布的全球数字经济报告中更是深刻地指出了数字经济以及数字资产对各个国家的影响。
数字化运维现状与分析
数据分类与应用场景
通过云智慧的总结与梳理,从数据的角度,运维数据大致可以分为以下 7 类:
指标类数据:即服务器运行时当前的CPU利用率、可用内存容量、磁盘IO速率、网络传输速度等; 日志类数据:即各类软硬件输出的记录系统运行过程中某一个时间节点发生的一些事件的文件; 警报类数据:即各类软硬件基于自身定义的错误或故障,发出的各级警报信息,某些类型的警报也是日志的一部分; 配置类数据;更多的是指运维对象的一些相对静态的属性信息。常见的就是保存在CMDB里面的CI项属性信息; 关系类数据:业务系统的横纵拓扑,运维对象之间的关联关系数据。常见的有类似于基础监控中基于snmp等技术发现的拓扑信息、apm输出的调用链信息,基于open tracing规范或用户自己的业务标记生成的日志输出的调用链以及CMDB里面保存的人工生成或基于各类基础监控技术发现的关系数据; 工单类数据:基于日常运维过程生成的各类运维工作数据,例如服务请求工单,事件工单,问题工单,变更工单等等类型的工单数据; 知识类数据:在日常运维工作中积累的IT运维知识数据,如知识库中的通用IT技术知识,工单沉淀的业务运维知识等。上述数据类型能够支撑以下运维场景:
日常监控:通过IT算法可以对指标数据进行各种智能的阈值设定,减少手动阈值设定和变更所导致的工作量,此外,还可以减少固定阈值可能造成的错报或误报警。与此同时,还可以通过算法识别出日志的常量和变量模式,将某种典型错误的常量模式设置为报警,以丰富告警源,加强系统监控维度。另一方面,还可以通过算法把海量的警报数据进行压缩,并根据一系列规则生成少量的告警事件,从而降低告警风暴,使运维人员集中精力应对关键事件。这一类场景可以称为低配置化IT监控及告警。此外,通过预测算法,可以对指标的走向趋势进行预测,并根据日志的模式组合进行分析,从而通过捕捉某些故障发生之前的特征进行这一类故障的预警。 事件处置及问题管理:通过整合系统间的指标数据、日志数据、警报数据以及关系数据,再辅以可视化技术及AI技术,就可以很好的为用户展现有向无环的IT逻辑调用关系,从而帮助运维人员在发生故障时,快速定位系统故障的首因位置,并结合过往工单和知识数据,一定程度上辅助用户来进行根因分析。并为用户推荐处置策略。 容量管理:通过指标数据的预测进行各类IT资源容量预测,并根据各类数据转化的用户体验指标结合容量信息来进行IT资源利用率的评估。 服务度量:通过系统运行的指标警报等数据来生成系统的用户体验得分,同时可以根据工单数据来统计运维团队的服务效能,更可以结合这两类数据来进行IT服务的价值评估。