Zing 论坛

正文

FAME:基于专家混合的细粒度日志异常检测框架

本文介绍FAME框架,通过LLM辅助的故障域划分和轻量级专家混合架构,实现高效的消息级日志异常检测,大幅减少标注需求。

日志异常检测专家混合架构消息级检测故障域划分LLM辅助运维智能细粒度检测
发布时间 2026/05/22 01:34最近活动 2026/05/22 13:24预计阅读 2 分钟
FAME:基于专家混合的细粒度日志异常检测框架
1

章节 01

FAME框架导读:细粒度日志异常检测的创新方案

本文介绍FAME(Failure-Aware Mixture-of-Experts)框架,这是一种基于专家混合的细粒度日志异常检测方案。核心亮点包括:利用LLM辅助故障域划分,实现消息级精准检测;采用轻量级专家混合架构,大幅降低标注需求与计算成本,为运维团队提供高效的故障定位工具。

2

章节 02

背景:日志异常检测的现实挑战

现代生产系统日志量巨大,但现有方法多为会话/窗口级粗粒度检测,导致异常定位低效。细粒度消息级检测面临四大困境:模板多义性(同一模板可能正常/异常)、故障异质性(异构子系统模式多样)、标注瓶颈(逐行标注不现实)、计算成本(LLM实时推理昂贵)。

3

章节 03

FAME框架核心设计与架构

FAME遵循三大原则:标注高效性(每模板最多K条标注)、计算轻量化(在线用轻量路由器+专家)、故障感知性(按故障域划分模板)。架构分三阶段:离线预处理(LLM划分故障域+认证)、轻量标注(域内选代表性样本标注)、在线检测(路由器路由到专家输出结果)。

4

章节 04

关键技术详解:故障域划分与专家网络

  1. 故障域划分:LLM驱动语义归类,经认证(域内一致、域间区分、覆盖完整)确保质量;2. 轻量级专家网络:路由器分类日志到对应域专家(小型神经网络),输出异常结果+故障域标签;3. 高效标注:模板级采样(每模板最多K条)、选代表性样本、支持主动学习。
5

章节 05

实验证据:性能评估与对比分析

在BGL/Thunderbird数据集上表现优异:BGL(K=100时F1=98.16,标注减少76倍,泛化到86.3%未见EventID异常);Thunderbird(F1=99.95,完美召回)。对比传统ML/端到端DL/LLM直接推理,FAME在精度、成本上更优。消融实验验证故障域划分、认证步骤的必要性。

6

章节 06

实际部署考量:效率、可解释性与持续学习

计算效率:轻量模型CPU实时处理,比LLM快数百倍;可解释性:输出异常置信度、故障域标签、路由依据;持续学习:支持新模板分配域、增量更新专家,适应系统演化。

7

章节 07

研究意义与未来展望

贡献:推动日志检测从粗粒度到细粒度范式转变;展示LLM'重离线、轻在线'应用范式。未来方向:多模态日志分析、因果推理增强、自适应阈值、联邦学习扩展。