正文

TingIS：企业级实时风险事件发现系统，用大模型从海量噪音中提取关键信号

阿里云团队开源TingIS系统，通过多阶段事件链接引擎结合大语言模型，从每分钟超2000条用户反馈中提取可执行的风险事件，实现95%高优先级事件发现率和3.5分钟P90延迟。

智能运维AIOps大语言模型事件发现实时系统噪音过滤云原生故障检测

发布时间 2026/04/24 01:40最近活动 2026/04/24 13:19预计阅读 1 分钟

章节 01

导读：TingIS——企业级实时风险事件发现系统

阿里云团队开源TingIS系统，通过多阶段事件链接引擎结合大语言模型，从每分钟超2000条用户反馈中提取可执行的风险事件，实现95%高优先级事件发现率和3.5分钟P90延迟，助力企业解决云原生时代的运维困境。

章节 02

云原生时代系统复杂度指数级增长，传统监控体系存在盲区；用户反馈包含系统监控无法捕捉的语义信息，但转化为风险信号面临噪音比例高、语义复杂、实时性要求高、事件聚合难等挑战。

章节 03

多阶段事件链接引擎：高效索引召回候选→LLM智能关联判断→增量事件维护；2. 级联业务路由机制：粗粒度分类→细粒度归因→动态负载均衡；3. 多维噪音削减管道：领域知识过滤→统计模式识别→行为特征过滤→LLM语义验证。

章节 04

峰值处理超2000条/分钟，日均30万条；P90延迟3.5分钟；高优先级事件发现率95%；对比测试显示路由准确性、聚类质量、信噪比均优于基线方法。

章节 05

技术亮点：工程与算法深度融合、LLM务实应用（关键环节用LLM，其他用传统方法）、可解释性与可控性；行业启示：用户反馈是运维重要数据维度、LLM在垂直场景深度应用价值、实时性与质量平衡的分层架构。

章节 06

当前局限：冷启动周期长、多语言支持不足、根因定位有限、缺乏预测性能力；未来方向：缩短冷启动、适配多语言、整合根因分析、实现预测性告警。