Zing 论坛

正文

MeasHalu:通过增强推理缓解大语言模型科学测量幻觉的框架

中国科学院深圳先进技术研究院团队推出的MeasHalu框架,通过细粒度幻觉分类法、推理感知微调和渐进式奖励课程优化,有效缓解大语言模型在科学测量信息提取中的幻觉问题,在MeasEval基准测试上达到与竞赛冠军相当的性能。

AI for Science大语言模型幻觉缓解科学文献理解测量数据提取ACL 2026强化学习推理优化
发布时间 2026/06/12 00:45最近活动 2026/06/12 00:53预计阅读 2 分钟
MeasHalu:通过增强推理缓解大语言模型科学测量幻觉的框架
1

章节 01

导读:MeasHalu框架——缓解大语言模型科学测量幻觉的新方案

中国科学院深圳先进技术研究院团队推出MeasHalu框架,通过细粒度幻觉分类法、推理感知微调和渐进式奖励课程优化,有效缓解大语言模型在科学测量信息提取中的幻觉问题,在MeasEval基准测试上达到与竞赛冠军相当的性能,为AI for Science领域提供关键技术突破。

2

章节 02

背景:科学测量幻觉的挑战与影响

在AI for Science浪潮中,科学文献测量数据提取是核心需求,但大语言模型常出现幻觉:提取数量、单位、修饰词或关系时生成错误数据,损害自动化理解可靠性。这种问题不仅影响基础研究,还可能导致化学实验失败、药物研发失误等安全隐患,是AI for Science亟待解决的核心挑战。

3

章节 03

MeasHalu框架的核心创新方法

MeasHalu框架三大核心创新:

  1. 细粒度幻觉分类法:将测量幻觉分为数量错误、单位错误、修饰词错误、关系错误四类,针对性纠正;
  2. 两阶段推理感知微调:第一阶段监督微调学习正确提取模式,第二阶段强化学习优化复杂推理决策;
  3. 渐进式奖励课程优化:类型特定惩罚随训练难度递增,提升推理稳定性。
4

章节 04

实验结果:MeasHalu的性能验证

MeasEval基准测试表现

模型 F1分数
MeasHalu-7B 0.512
LIORI(竞赛冠军) 0.519
GPT-5(优化提示) 0.406
Gemini-2.5-Pro(优化提示) 0.440
CONNER 0.473
MeasHalu-7B性能接近竞赛冠军,比GPT-5高10+F1分。

细粒度熵分析

语义角色 熵减少 峰值比率减少
数量 ↓52.1% 最小波动
关系 ↓42.7% ↓56.8%
模型推理稳定性显著提升。
6

章节 06

技术启示与未来展望

技术启示

  1. 问题分解价值:细粒度分类提升针对性;
  2. 过程监督重要性:关注推理过程增强稳定性;
  3. 领域优化必要性:通用模型需适配科学领域。

未来展望

MeasHalu类专业化框架将推动AI for Science发展,团队后续将推出MeasBench全面基准测试,构建更可靠的科学智能系统。