章节 01
导读:MeasHalu框架——缓解大语言模型科学测量幻觉的新方案
中国科学院深圳先进技术研究院团队推出MeasHalu框架,通过细粒度幻觉分类法、推理感知微调和渐进式奖励课程优化,有效缓解大语言模型在科学测量信息提取中的幻觉问题,在MeasEval基准测试上达到与竞赛冠军相当的性能,为AI for Science领域提供关键技术突破。
正文
中国科学院深圳先进技术研究院团队推出的MeasHalu框架,通过细粒度幻觉分类法、推理感知微调和渐进式奖励课程优化,有效缓解大语言模型在科学测量信息提取中的幻觉问题,在MeasEval基准测试上达到与竞赛冠军相当的性能。
章节 01
中国科学院深圳先进技术研究院团队推出MeasHalu框架,通过细粒度幻觉分类法、推理感知微调和渐进式奖励课程优化,有效缓解大语言模型在科学测量信息提取中的幻觉问题,在MeasEval基准测试上达到与竞赛冠军相当的性能,为AI for Science领域提供关键技术突破。
章节 02
在AI for Science浪潮中,科学文献测量数据提取是核心需求,但大语言模型常出现幻觉:提取数量、单位、修饰词或关系时生成错误数据,损害自动化理解可靠性。这种问题不仅影响基础研究,还可能导致化学实验失败、药物研发失误等安全隐患,是AI for Science亟待解决的核心挑战。
章节 03
MeasHalu框架三大核心创新:
章节 04
| 模型 | F1分数 |
|---|---|
| MeasHalu-7B | 0.512 |
| LIORI(竞赛冠军) | 0.519 |
| GPT-5(优化提示) | 0.406 |
| Gemini-2.5-Pro(优化提示) | 0.440 |
| CONNER | 0.473 |
| MeasHalu-7B性能接近竞赛冠军,比GPT-5高10+F1分。 |
| 语义角色 | 熵减少 | 峰值比率减少 |
|---|---|---|
| 数量 | ↓52.1% | 最小波动 |
| 关系 | ↓42.7% | ↓56.8% |
| 模型推理稳定性显著提升。 |
章节 05
可从实验文本生成执行操作序列: 输入:"将100mg样品加热至80°C" 输出:ADD(100 mg), HEAT(80°C) 助力自动化实验室与智能科研助手。
成果被ACL 2026 Findings接收,代码/模型/数据集开源(GitHub:https://github.com/CAS-SIAT-XinHai/MeasHalu),将作为MeasureMine框架核心组件,后续推出MeasBench基准。
章节 06
MeasHalu类专业化框架将推动AI for Science发展,团队后续将推出MeasBench全面基准测试,构建更可靠的科学智能系统。