正文

FAME：基于专家混合的细粒度日志异常检测框架

本文介绍FAME框架，通过LLM辅助的故障域划分和轻量级专家混合架构，实现高效的消息级日志异常检测，大幅减少标注需求。

日志异常检测专家混合架构消息级检测故障域划分LLM辅助运维智能细粒度检测

发布时间 2026/05/22 01:34最近活动 2026/05/22 13:24预计阅读 2 分钟

章节 01

FAME框架导读：细粒度日志异常检测的创新方案

本文介绍FAME（Failure-Aware Mixture-of-Experts）框架，这是一种基于专家混合的细粒度日志异常检测方案。核心亮点包括：利用LLM辅助故障域划分，实现消息级精准检测；采用轻量级专家混合架构，大幅降低标注需求与计算成本，为运维团队提供高效的故障定位工具。

章节 02

背景：日志异常检测的现实挑战

现代生产系统日志量巨大，但现有方法多为会话/窗口级粗粒度检测，导致异常定位低效。细粒度消息级检测面临四大困境：模板多义性（同一模板可能正常/异常）、故障异质性（异构子系统模式多样）、标注瓶颈（逐行标注不现实）、计算成本（LLM实时推理昂贵）。

章节 03

FAME框架核心设计与架构

FAME遵循三大原则：标注高效性（每模板最多K条标注）、计算轻量化（在线用轻量路由器+专家）、故障感知性（按故障域划分模板）。架构分三阶段：离线预处理（LLM划分故障域+认证）、轻量标注（域内选代表性样本标注）、在线检测（路由器路由到专家输出结果）。

章节 04

关键技术详解：故障域划分与专家网络

故障域划分：LLM驱动语义归类，经认证（域内一致、域间区分、覆盖完整）确保质量；2. 轻量级专家网络：路由器分类日志到对应域专家（小型神经网络），输出异常结果+故障域标签；3. 高效标注：模板级采样（每模板最多K条）、选代表性样本、支持主动学习。

章节 05

实验证据：性能评估与对比分析

在BGL/Thunderbird数据集上表现优异：BGL（K=100时F1=98.16，标注减少76倍，泛化到86.3%未见EventID异常）；Thunderbird（F1=99.95，完美召回）。对比传统ML/端到端DL/LLM直接推理，FAME在精度、成本上更优。消融实验验证故障域划分、认证步骤的必要性。

章节 06