章节 01
S3数据集:多模态大模型医疗视频理解的重要突破导读
Seizure-Semiology-Suite(S3)是首个针对癫痫发作症状学理解的多模态数据集与基准测试,包含438个癫痫视频及35000+密集标注,覆盖20种ILAE定义的症状特征。本研究揭示当前多模态大语言模型(MLLMs)在医疗视频理解领域的系统性弱点,并提出改进方案,为医疗AI领域提供关键基准与发展方向。
正文
Seizure-Semiology-Suite (S3) 是一个针对癫痫发作症状学理解的多模态数据集和基准测试,包含438个癫痫视频和超过35000个密集标注,涵盖20种ILAE定义的症状学特征。该研究揭示了当前多模态大语言模型在医疗视频理解方面的系统性弱点,并提出了改进方案。
章节 01
Seizure-Semiology-Suite(S3)是首个针对癫痫发作症状学理解的多模态数据集与基准测试,包含438个癫痫视频及35000+密集标注,覆盖20种ILAE定义的症状特征。本研究揭示当前多模态大语言模型(MLLMs)在医疗视频理解领域的系统性弱点,并提出改进方案,为医疗AI领域提供关键基准与发展方向。
章节 02
多模态大语言模型在通用视频理解任务上进展显著,但在医疗等安全关键领域面临巨大挑战。癫痫发作症状学需理解非自主、时空演变的病理性运动行为,对模型的时序推理能力和医学专业知识要求极高。现有模型在高风险、高精度的医学领域可靠性不足,难以处理症状时空规律、侧别定位等复杂临床维度。
章节 03
S3是首个针对癫痫症状学的大规模临床数据集,包含438个癫痫发作视频、35000+密集标注,覆盖国际抗癫痫联盟(ILAE)定义的20种症状学特征。标注由专业神经科医生完成,包含症状出现时间、左右侧分布、演变顺序等临床深度信息,为模型训练与评估提供坚实基础。
章节 04
研究设计七层层次化评估框架,从低层视觉感知到高级临床推理全面考察模型能力:1.低层视觉感知;2.时序定位;3.左右侧推理;4.症状序列理解;5.叙述报告生成;6.癫痫与非癫痫鉴别;7.综合诊断推理。同时提出Seizure-RQI指标,从临床实用性评估报告的症状完整性、时间准确性、侧别正确性等维度,弥补传统自动评估指标的不足。
章节 05
对11个开源多模态大语言模型评估发现关键弱点:1.左右侧推理能力不足(影响癫痫灶定位);2.时序定位精度有限;3.症状序列理解薄弱;4.临床忠实度欠缺(报告不规范或遗漏关键信息)。
章节 06
针对癫痫领域的专门微调可显著提升模型表现。研究提出的两阶段神经符号框架在癫痫与非癫痫分类任务上F1分数达0.96,该框架先以神经网络提取视频症状特征,再通过符号推理层整合特征进行临床判断,结合深度学习感知能力与符号推理可解释性。
章节 07
S3数据集填补了多模态大模型医疗视频理解评估的空白,为研究者提供严格基准与改进方向。对医疗AI团队而言,S3是宝贵资源(高质量数据、全面评估基准、验证的改进路径)。未来期待基于S3的研究,尤其在医学知识注入、时序推理增强、神经符号融合等方向,推动多模态智能在医疗领域安全有效应用。