chatgpt在运维中的使用 在东华AIOps运维产品基础上进行ChatGPT的平台升级

默认分类1年前 (2023)发布 admin
1,539 0
ChatGPT国内版

随着人工智能技术的不断发展,AIOps已经成为当前IT运维领域的热点话题。AIOps可以帮助企业提高IT系统的稳定性、安全性和效率,但是在实际应用中,AIOps普及率依然较低,主要原因是AIOps的实施难度较大,需要专业的技术人员进行开发和维护。东华软件致力于为客户提供高品质的软件解决方案和优质的服务。我们的研发团队由一群技术卓越、经验丰富的专业人士组成,他们不断追求技术的创新和升级,以确保我们的产品始终处于行业的前沿。我们的实施团队由一群具有丰富实践经验的专业人员组成,他们能够快速响应客户需求并提供最佳的解决方案。其他友商们难以应对的困难恰恰是我们最突出的优势!

东华AIOps人工智能运维平台不依赖于人为指定规则,增加了一个基于机器学习的大脑,主张由机器学习算法自动地从海量运维数据中不断地学习,不断地提炼总结规则,指挥监测系统采集大脑决策所需的数据,自动做出分析、决策,并指挥调度自动化脚本去执行大脑的决策,从而达到“通过AI调度中枢管理,质量、成本、效率三者兼顾的真正无人值守运维管理”的整体目标。

目前,我们在AIOps基础上,正在研发相关技术的平台应用。是一种基于人工智能的自然语言处理技术,可以实现智能对话、问答等多种功能,与AIOps技术相结合,可以有效提升AIOps的应用价值和普及率。

技术可以帮助我们实现以下几个方面的升级:

1. 自动化运维:利用技术,可以实现自动化运维,例如自动化故障诊断、自动化故障定位等。

2. 知识库智能问答:通过技术,可以实现知识库智能问答功能,例如自动化回答用户的问题、自动化为用户提供解决方案等。

3. 数据分析:利用技术,可以对大量的运维数据进行分析和挖掘,为企业提供更准确的决策支持。

基于以上升级思路,我们可以构建一个基于AIOps和技术的智能运维平台,该平台可以为企业提供更加智能化的运维服务和支持,提高企业的IT系统稳定性、安全性和效率。同时,该平台也可以减少企业的人力和物力成本,提高企业的竞争力。

总之,基于AIOps和技术的平台升级,可以为企业提供更加智能化的运维服务和支持,实现自动化运维、智能问答和数据分析等多种功能。这是一种非常有前景的发展方向,值得我们进一步深入研究和探索。

下面是我们目前成熟的AIOps人工智能运维平台产品介绍以及大型运营商实施案例:‍‍‍‍‍‍

平台架构

东华AIOps人工智能运维平台是东华软件经过多年运维监控管理系统的开发经验积累、用户IT维护管理实践、自主研发和技术创新的结晶。该系统基于微服务构架方式实现系统整个数据的采集、处理、展现,不同功能模块全部组件化设计,逻辑分离。通过虚拟的采集服务器实现对数据的统一采集,通过虚拟的服务路由池实现服务及数据的路由,通过服务池实现服务的集中调度管理,通过管理平台实现数据的展现及控制,其软件技术构架完全符合用户未来发展的需要。

平台主要功能场景化

东华AI人工智能运维平台可以为用户构建出场景化智能运维(AIOps)管理体系,平台围绕用户体验和自动化运营,提供一站式的IT资源管控、性能预判、故障诊断、故障自愈合和实时健康分析,实现了线上资源的不间断监控和自动恢复,能第一时间发现和智能解决问题,为信息化运维的数字化转型提供了有力支撑。其充分利用大数据和AI技术构建智能化的运维管控模型,自动识别业务问题,简化运维操作复杂度,智能学习建立故障恢复模型,持续改善业务健康度。

大数据采集

数据采集是AIOps的基础,平台使用采集机器人接收智能管理模块的调度命令,执行相应管理信息数据采集,对不同类型的资源数据,智能的采用对应的数据采集服务和标准协议,采集命令所需的信息数据;采集机器人可以实现被管资源的故障、运行状态、设备的资产、数据流、设备关系等信息的自动化采集,平台通过数据湖的设计进行数据的存储和训练。平台支持不仅自己可以实现数据采集,也提供和第三方监控系统的数据采集接口。

chatgpt在运维中的使用 在东华AIOps运维产品基础上进行ChatGPT的平台升级

故障预测与自动恢复工具

对被管对象故障,通过机器学习算法来发现告警之间的疑似相关性,结合多种智能算法(不同网络环境和场景下,采用不同的算法或者多种算法的结合),确认管理对象的故障根因;通过智能学习模型训练(通过自动学习使用者的行为,持续优化模型)的分析结果,对所产生的故障,通过自愈模块实现故障的自动化处理,实现被管对现故障的自动恢复功能,使设备保持安全稳定健康运行。

故障预测模型

主要AI算法:

现在平台支持的自动恢复场景包括:

–告警故障自愈

–服务器设备托管(上架后的初始化、自动开关机)

–网络设备托管(上架后的初始化、自动网络端口启停、配置文件恢复)

–服务开通

–容灾演练

自动恢复模型

告警溯源分析工具

对于已经发生的告警,如何精确定位告警的发生根本原因成为了智能分析的核心部分,这部分平台主要通过故障库的定义和机器自学习更新来进行告警源的诊断。对于已知故障,AIOps平台能够综合故障数据和自动提取故障特征库中的故障特征,自动进行匹配,自动定位故障源;对于未知故障,AIOps平台可以根据故障特征自动进行推演(依据时间相关性、关系拓扑、机器学习算法),赵处可能的故障原因,并在人工确认后补充故障特征库。

chatgpt在运维中的使用 在东华AIOps运维产品基础上进行ChatGPT的平台升级

KPI指标异常感知分析工具

对海量的运维数据进行综合性分析,对各类运维数据的采集和集中存储、提供大数据搜索和分析能力;通过建立数据规范,实现数据信息的标准化,将数据的采集和提取按照规范的标准形成有效的数据信息,提升数据价值;根据相关的业务内容,设计遵照业务规律的可视化分析场景,通过分析平台的数据统计分析功能,实现对业务数据的实时洞察;根据业务的维度来管理,关联或打通了业务和设备的逻辑关系;并且通过人工智能,强化训练,深度机器平台自主学习和对业务进行敏捷分析,挖掘业务场景分析价值。

平台建立了全面的异常感知体系,主要包括:

–故障异常感知(关键KPI指标未来趋势智能分析)

–健康度感知(设备/业务健康度的算法体系,包含乐观算法、悲观算法、平衡算法体系等)

–运维事务感知(日常自动化巡检、作业自动调度)

AIOps在某大型电信云运营中的应用实践

做为某大型电信集团的IT建设及维护单位,有大量的设施、软硬件设备、云资源及应用系统需要维护。为满足集团对私有云管理的总体部署安排要求,推进全网私有云集中化发展,一级资源池规模不断扩大(现网6.8万台,在建3.8万台,新建1.5万台),被管资源和管理系统涉及多家。

一级资源池运维工作中的难点:

本项目实现AIOps可行性分析:

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...