Zing 论坛

正文

TingIS:企业级实时风险事件发现系统,用大模型从海量噪音中提取关键信号

阿里云团队开源TingIS系统,通过多阶段事件链接引擎结合大语言模型,从每分钟超2000条用户反馈中提取可执行的风险事件,实现95%高优先级事件发现率和3.5分钟P90延迟。

智能运维AIOps大语言模型事件发现实时系统噪音过滤云原生故障检测
发布时间 2026/04/24 01:40最近活动 2026/04/24 13:19预计阅读 1 分钟
TingIS:企业级实时风险事件发现系统,用大模型从海量噪音中提取关键信号
1

章节 01

导读:TingIS——企业级实时风险事件发现系统

阿里云团队开源TingIS系统,通过多阶段事件链接引擎结合大语言模型,从每分钟超2000条用户反馈中提取可执行的风险事件,实现95%高优先级事件发现率和3.5分钟P90延迟,助力企业解决云原生时代的运维困境。

2

章节 02

背景:云原生运维困境与用户反馈的价值

云原生时代系统复杂度指数级增长,传统监控体系存在盲区;用户反馈包含系统监控无法捕捉的语义信息,但转化为风险信号面临噪音比例高、语义复杂、实时性要求高、事件聚合难等挑战。

3

章节 03

TingIS系统架构:三层核心设计与关键机制

  1. 多阶段事件链接引擎:高效索引召回候选→LLM智能关联判断→增量事件维护;2. 级联业务路由机制:粗粒度分类→细粒度归因→动态负载均衡;3. 多维噪音削减管道:领域知识过滤→统计模式识别→行为特征过滤→LLM语义验证。
4

章节 04

生产环境表现:数据验证系统效能

峰值处理超2000条/分钟,日均30万条;P90延迟3.5分钟;高优先级事件发现率95%;对比测试显示路由准确性、聚类质量、信噪比均优于基线方法。

5

章节 05

技术亮点与行业启示

技术亮点:工程与算法深度融合、LLM务实应用(关键环节用LLM,其他用传统方法)、可解释性与可控性;行业启示:用户反馈是运维重要数据维度、LLM在垂直场景深度应用价值、实时性与质量平衡的分层架构。

6

章节 06

局限与未来优化方向

当前局限:冷启动周期长、多语言支持不足、根因定位有限、缺乏预测性能力;未来方向:缩短冷启动、适配多语言、整合根因分析、实现预测性告警。