章节 01
MuDABench:揭示RAG系统瓶颈的大规模文档分析问答新基准
MuDABench是面向大规模半结构化文档集合的分析型问答新基准,包含8万页文档和332个分析型问答实例,旨在填补现有多文档问答基准在跨文档推理需求上的局限。研究通过该基准揭示了标准RAG系统的瓶颈,并提出多智能体工作流等优化方向,为下一代RAG系统设计提供指导。
正文
新基准测试MuDABench包含8万页文档和332个分析型问答,挑战现有RAG系统在大规模跨文档推理中的局限。
章节 01
MuDABench是面向大规模半结构化文档集合的分析型问答新基准,包含8万页文档和332个分析型问答实例,旨在填补现有多文档问答基准在跨文档推理需求上的局限。研究通过该基准揭示了标准RAG系统的瓶颈,并提出多智能体工作流等优化方向,为下一代RAG系统设计提供指导。
章节 02
检索增强生成(RAG)技术已让大语言模型能基于外部文档回答问题,但现有多文档问答基准通常仅需从少数文档提取信息,跨文档推理需求有限。这与真实世界应用场景(如金融分析、法律研究等)形成对比——分析师需处理成千上万页文档,进行复杂跨文档信息整合和量化分析。为填补空白,研究团队推出MuDABench。
章节 03
MuDABench体现"真实场景"设计理念:
与传统问答不同,MuDABench的问题要求:
这种设计更接近真实商业分析、投资研究等场景。
章节 04
研究团队提出双重评估指标:
衡量模型生成答案与参考答案的匹配程度,是传统端到端评估。
作为辅助诊断信号,评估模型推理过程中是否正确识别和利用关键中间事实,有助于区分答案是否基于正确推理、模型错误环节及推理链条完整性,为系统优化提供方向。
章节 05
实验揭示:将大规模文档视为"平坦检索池"的标准RAG系统表现糟糕,面临检索噪声、上下文碎片化、关系缺失等挑战。
为克服局限,研究提出多智能体工作流,协调三个模块:
该架构显著提升指标,但与人类专家仍有差距。
章节 06
深入分析失败案例后,研究识别出两大瓶颈:
即使定位正确文档,模型常出错:数值提取错误(如"1.5亿"误读为"15亿")、实体关系混淆、表格数据错位等。
金融分析需深厚领域知识:会计术语理解、行业特定规则、商业逻辑把握等,通用LLM明显不足,需专门领域适配。
章节 07
MuDABench研究结果提供重要指导:
抛弃"平坦检索池"思维,构建分层系统:顶层文档级过滤、中层章节级定位、底层精确提取。
开发专门提取模块:解析复杂表格图表、理解文档层次结构、维护实体关系图谱。
针对特定领域构建:领域术语词典、推理规则、微调数据集。
设计人机协作流程:AI初筛定位、人类验证关键结果、AI辅助计算报告、人类最终决策。
章节 08
MuDABench已在GitHub开源(https://github.com/Zhanli-Li/MuDABench),提供大规模真实文档集合、高质量问答标注、基线系统实现、评估工具脚本,为RAG系统、文档智能等领域研究提供实验平台。
MuDABench不仅是新基准,更是对RAG技术发展方向的提醒:当AI从演示推向生产环境时,规模、复杂度和领域专业性是真正考验。理解瓶颈是解决它们的第一步。