正文

MeasHalu：通过增强推理缓解大语言模型科学测量幻觉的框架

中国科学院深圳先进技术研究院团队推出的MeasHalu框架，通过细粒度幻觉分类法、推理感知微调和渐进式奖励课程优化，有效缓解大语言模型在科学测量信息提取中的幻觉问题，在MeasEval基准测试上达到与竞赛冠军相当的性能。

AI for Science大语言模型幻觉缓解科学文献理解测量数据提取ACL 2026强化学习推理优化

发布时间 2026/06/12 00:45最近活动 2026/06/12 00:53预计阅读 2 分钟

章节 01

导读：MeasHalu框架——缓解大语言模型科学测量幻觉的新方案

中国科学院深圳先进技术研究院团队推出MeasHalu框架，通过细粒度幻觉分类法、推理感知微调和渐进式奖励课程优化，有效缓解大语言模型在科学测量信息提取中的幻觉问题，在MeasEval基准测试上达到与竞赛冠军相当的性能，为AI for Science领域提供关键技术突破。

章节 02

背景：科学测量幻觉的挑战与影响

在AI for Science浪潮中，科学文献测量数据提取是核心需求，但大语言模型常出现幻觉：提取数量、单位、修饰词或关系时生成错误数据，损害自动化理解可靠性。这种问题不仅影响基础研究，还可能导致化学实验失败、药物研发失误等安全隐患，是AI for Science亟待解决的核心挑战。

章节 03

MeasHalu框架的核心创新方法

MeasHalu框架三大核心创新：

细粒度幻觉分类法：将测量幻觉分为数量错误、单位错误、修饰词错误、关系错误四类，针对性纠正；
两阶段推理感知微调：第一阶段监督微调学习正确提取模式，第二阶段强化学习优化复杂推理决策；
渐进式奖励课程优化：类型特定惩罚随训练难度递增，提升推理稳定性。

章节 04

实验结果：MeasHalu的性能验证

MeasEval基准测试表现

模型	F1分数
MeasHalu-7B	0.512
LIORI（竞赛冠军）	0.519
GPT-5（优化提示）	0.406
Gemini-2.5-Pro（优化提示）	0.440
CONNER	0.473
MeasHalu-7B性能接近竞赛冠军，比GPT-5高10+F1分。

细粒度熵分析

语义角色	熵减少	峰值比率减少
数量	↓52.1%	最小波动
关系	↓42.7%	↓56.8%
模型推理稳定性显著提升。

章节 05

应用场景与学术贡献

具身智能应用

可从实验文本生成执行操作序列：输入："将100mg样品加热至80°C" 输出：ADD(100 mg), HEAT(80°C) 助力自动化实验室与智能科研助手。

学术认可与开源

成果被ACL 2026 Findings接收，代码/模型/数据集开源（GitHub：https://github.com/CAS-SIAT-XinHai/MeasHalu），将作为MeasureMine框架核心组件，后续推出MeasBench基准。

章节 06

技术启示与未来展望

技术启示

问题分解价值：细粒度分类提升针对性；
过程监督重要性：关注推理过程增强稳定性；
领域优化必要性：通用模型需适配科学领域。

未来展望

MeasHalu类专业化框架将推动AI for Science发展，团队后续将推出MeasBench全面基准测试，构建更可靠的科学智能系统。