正文

小型语言模型在智能RAG工作流中的失效模式研究

一项针对四款小型语言模型在金融文档推理任务中的系统性评估，揭示了智能RAG工作流中数值错误与幻觉等主导性失效模式，并提出可复用的十类错误分类法与双评审评估协议。

Small Language ModelSLMRAGAgentic WorkflowFinancial ReasoningEvaluationFailure ModesQwenLlamaPhi

发布时间 2026/06/06 03:59最近活动 2026/06/06 04:18预计阅读 3 分钟

章节 01

【导读】小型语言模型在智能RAG工作流中的失效模式研究

本文针对四款小型语言模型（SLM）在金融文档推理任务中的表现展开系统性评估，揭示智能RAG工作流中的主导失效模式，并提出可复用的错误分类法与双评审协议。

原作者: Muhammad Ahmed Mufti、Usman Haroon（FAST国立大学）来源: GitHub项目《GenAI_Project》链接: https://github.com/UsmanHaroon1177/GenAI_Project 发布时间: 2026-05-12

核心研究对象包括Qwen3-1.7B、SmolLM3-3B、Phi-4-mini、Llama-3.1-8B四款SLM，同时以GPT-OSS-120B作为能力上限对比。

章节 02

研究背景与动机

随着LLM的普及，SLM因低部署成本、快推理速度成为应用热点。但在金融文档分析这类需精确数值计算与复杂推理的场景中，SLM表现如何？传统RAG与智能体（Agentic）工作流哪种更适合SLM？

本研究旨在回答上述问题，通过系统性评估四款主流SLM在金融推理任务中的表现，为SLM的实际应用提供参考。

章节 03

研究方法与设计

实验框架

检索策略: 混合BM25稀疏检索（前50）与BGE-small密集检索（前50），去重后经bge-reranker-v2-m3重排序取前8文本块。
提示工程: 从保守型（98-99%拒绝回答）调整为宽松型RAG提示，指导模型识别行项目、逐步运算并输出指定格式答案。
智能体协议: 遵循ReAct协议，模型首次输出即提交，无自我验证。

评估体系

十类错误分类法: 涵盖数值计算错误、幻觉、格式错误等。
双评审机制: 用Llama-3.3-70B与Qwen-2.5-72B独立评判。
统计置信度: Wilson区间计算95%置信区间确保结果可靠。

章节 04

核心发现：准确率对比与失效模式

准确率对比

智能体工作流导致所有SLM准确率显著下降：

模型	简单RAG准确率	智能体RAG准确率
Qwen3-1.7B	39.3% [31.9,47.3]	12.7% [8.3,18.9]
SmolLM3-3B	28.7% [22.0,36.4]	13.3% [8.8,19.7]
Phi-4-mini	32.0% [25.1,39.8]	19.3% [13.8,26.4]
Llama-3.1-8B	32.7% [25.7,40.5]	6.0% [3.2,11.0]
GPT-OSS-120B	53.7% [45.7,61.5]	32.0% [25.1,39.8]

失效模式

数值计算错误: 多步算术运算易累积误差，尤其复杂财务公式。
幻觉: 生成与检索内容不符的信息，智能体工作流中更突出。
工具使用错误: 调用外部工具时格式或参数传递错误。

章节 05

评审一致性与实践启示

评审一致性

Cohen's κ系数0.6528（实质性一致）
RAGAS上下文召回率Spearman相关系数0.7767
1498个双评审样本提供统计基础

实践建议

简单RAG更适合SLM: 复杂智能体工作流易引入更多错误。
任务-模型匹配: 金融推理需精确计算，需充分考虑SLM能力边界。
复用评估框架: 十类错误分类法与双评审协议可推广至其他领域。

章节 06

局限性与未来方向

局限性

仅在零温度（T=0）下实验，未探索采样方差。
仅测试一种检索流水线配置。
评审模型均为70B级别，未引入更小模型或人工评审。
因API配额限制，未完整复现Gemini 2.5 Flash实验。

未来方向

探索更适合SLM的智能体架构。
开发专门的数值推理模块。
建立更细粒度的错误诊断工具。

章节 07

研究结语

本研究通过严谨实验揭示SLM在金融推理任务中的真实表现，核心发现——智能体工作流并非总是优于简单RAG（尤其对SLM）——为业界提供实践指导。随着SLM在边缘计算等场景的普及，理解其能力边界与失效模式将愈发重要。