华为云发布全栈可观测平台 AOM,以 AI 赋能应用运维可观测

科技怪谈 后端 2024-10-09


9 月 19 日,华为全联接大会 2024 举办期间,在“AI 赋能应用现代化,加速软件生产力跃升”为主题的论坛上,华为云发布全栈可观测平台AOM,以 AI 赋能应用运维可观测,提升企业应用可用性与稳定性。

该平台发布标志着华为云在推动数字化转型和智能化运维领域的又一重大突破,全栈可观测平台的推出不仅为企业提供了更加全面和深入的系统监控和数据分析能力,还通过集成先进的人工智能技术,实现了对复杂应用环境的实时优化和问题预警。

应用运维管理(Application Operations Management,简称 AOM)是云上应用一站式可观测性分析平台,基于四层指标体系(业务层指标、应用层指标、中间件层指标、基础设施层),提供指标、日志、调用链 3 类数据关联分析、根因分析、场景化分析等可观测分析能力,全面掌握应用、资源实时运行状况,及时发现故障。

华为云 AOM 主要能力

全场景数据接入,统一监控大盘与告警管理:统一接入中心实现 4 层指标体系数据上报,提供可视化图表统一汇总呈现指标、日志信息,统一告警规则配置、开箱即用告警模板以及智能告警降噪。

 

全链路调用链分析,智能化代码级剖析 Profiling:支持调用链路时序图,直观展示 Web 端、App 端到后端服务、数据库、中间件链路关系,用户一站式定位故障链路,快速发现消耗资源的代码,定位 CPU、内存、时延性能问题。

容器监控体系洞察:支持集群维度、核心插件、节点、负载、外部 5 大检测维度、16 个巡检场景、49 个检测项诊断,实施掌握容器健康状态。

海量日志引擎:自主创新的高性能搜索引擎,存算分离架构,多租户共享海量弹性计算资源,实现百亿级日志 3 秒内返回搜索结果,提供日志结构化解析组合编排、高性能 SQL 分析、一站式日志加工等能力。

华为云 PaaS 服务产品部部长徐峰对 AIOps 领域的发展做了系统性的规划与展望,未来 AIOps 将是小模型与大模型结合使用,小模型聚焦故障感知定位解决量化确定性问题,大模型面向故障修复决策提升运维辅助人效,从 AI 故障感知、AI 故障定位、AI 生成故障修复建议三个方面构筑未来智能可观测产品力。

故障感知:通过多维指标智能聚合与故障预测算法,面向 AnyStack 与 AnyWhere 数据实时分析,实现应用故障 1 分钟及时发现。

故障定位:通过告警相关性分析、水平 &垂直关联分析能力实现场景化根因分析,5 分钟完成故障定位诊断。

故障决策与修复:生成式算法结合华为 SRE 运维经验和案例库,覆盖应用到资源各类场景问题的解决方案,提供精准修复建议,10 分钟完成应用故障修复闭环。

会上,上海松鼠云上人工智能技术有限公司(简称松鼠 AI)技术 VP 刘海涛分享了松鼠 AI 基于华为云 AOM 在智慧教育领域的实践。

松鼠 AI 基于华为云 AOM 构建 Ai 智适应学习系统一站式可观测性分析能力,融合指标、日志、调用链 3 类数据,实时掌握应用健康状态,通过数据关联、根因诊断、场景化分析等可观测能力,做到应用运维问题早发现早消除,全面保证 Ai 智适应学习系统的健康、平稳运转。

未来,华为云应用运维管理 AOM 将持续聚焦可观测领域,利用 AI 赋能应用智能可观测,推动数字化转型和智能化升级,面向用户提供更高效、精准的监控和分析解决方案,通过智能化的数据处理和分析能力,为客户提供全方位的系统洞察,在复杂的业务环境中快速识别潜在风险,优化操作流程,提升业务效益,显著降低运维成本。

 

Apipost 私有化火热进行中

评论