章节 01
【导读】ELTLM-Bench:医疗时序多模态大模型评估新基准
ELTLM-Bench是首个专注于评估大语言多模态模型在医疗纵向时序场景下时间感知与推理能力的综合基准,已被ACL 2026 Findings接收。该基准填补了传统静态评估忽视医疗时序维度的空白,提供高质量时序数据集、分层评估体系,并揭示当前SOTA模型在时序理解上的关键局限,为医疗AI发展提供重要测评工具。
正文
本文介绍ELTLM-Bench项目,这是首个专注于评估大语言多模态模型在医疗纵向时序场景下时间感知与推理能力的综合基准,已被ACL 2026 Findings接收。
章节 01
ELTLM-Bench是首个专注于评估大语言多模态模型在医疗纵向时序场景下时间感知与推理能力的综合基准,已被ACL 2026 Findings接收。该基准填补了传统静态评估忽视医疗时序维度的空白,提供高质量时序数据集、分层评估体系,并揭示当前SOTA模型在时序理解上的关键局限,为医疗AI发展提供重要测评工具。
章节 02
临床诊断依赖动态时序信息(如对比不同时间点影像变化),但当前主流医疗多模态模型评估基准存在静态评估为主、缺乏时序维度、临床真实性不足等局限。纵向时序评估需模型具备时间感知、变化检测、趋势推理、因果关联能力,对慢性病管理等场景至关重要。
章节 03
章节 04
数据构建流程:病例筛选→时间窗口定义→配对生成→问题生成→专家验证;评估指标:准确性(准确率/F1)、时序敏感性(对齐准确率)、推理质量(步骤完整性)、临床相关性(专家评分);模型测试:支持零样本、少样本提示、链式思维测试。
章节 05
模型表现:时序任务显著难于静态任务(准确率低15-20%),推理任务是薄弱环节,模型规模与时序能力非线性相关;错误模式:时间顺序混淆、过度关注当前、幻觉性关联、推理跳跃。
章节 06
章节 07
论文已被ACL 2026 Findings接收,填补评估空白、推动研究进展、促进临床合作。未来计划扩展数据集(更多模态/疾病/时序跨度/多中心)、丰富评估维度(不确定性、可解释性等)、持续维护基准。
章节 08
ELTLM-Bench是医疗AI评估里程碑,揭示模型局限并指引方向。启示:医疗AI评估需转向动态时序,任务设计贴近临床,跨学科合作至关重要。项目开源与伦理规范为行业树立榜样。