章节 01
导读:RareScopeDB——识别大语言模型罕见病知识盲区与幻觉的工具
RareScopeDB通过结合困惑度(PPL)和疾病知识评分(DKS),系统评估大语言模型在罕见病领域的知识状态,将疾病级知识划分为稳定知识、知识盲区、自信幻觉和不稳定知识四类,为医疗AI的安全应用提供重要诊断工具。该项目基于9171种罕见病的HPO关联数据,提供开源数据集与工具链,并开发在线浏览器助力实际应用。
正文
RareScopeDB通过结合困惑度(PPL)和疾病知识评分(DKS),系统评估大语言模型在罕见病领域的知识状态,将疾病级知识划分为稳定知识、知识盲区、自信幻觉和不稳定知识四类,为医疗AI的安全应用提供了重要的诊断工具。
章节 01
RareScopeDB通过结合困惑度(PPL)和疾病知识评分(DKS),系统评估大语言模型在罕见病领域的知识状态,将疾病级知识划分为稳定知识、知识盲区、自信幻觉和不稳定知识四类,为医疗AI的安全应用提供重要诊断工具。该项目基于9171种罕见病的HPO关联数据,提供开源数据集与工具链,并开发在线浏览器助力实际应用。
章节 02
大语言模型(LLM)在医疗领域应用广泛,但罕见病因数据稀缺、知识复杂成为可靠性检验关键场景。全球超7000种罕见病,每种病例极少导致训练数据不足。模型咨询时可能出现两种危险:自信但错误的回答(自信幻觉)、对已知知识表现不确定(不稳定知识),均可能延误诊断。RareScopeDB目标是量化评估LLM在罕见病领域的知识盲区,为医疗AI安全部署提供依据,基于9171种罕见病HPO关联数据建立评估框架。
章节 03
RareScopeDB结合困惑度(PPL)和疾病知识评分(DKS)双指标:
章节 04
提供完整Jupyter Notebook工作流:
章节 05
RareScopeDB提供在线浏览器(https://bioinf.org.cn:8055/),用户可查询特定罕见病知识状态、表型生成质量及基因关联准确性。该工具对以下角色有价值:
章节 06
RareScopeDB为医疗AI可解释性和安全性评估提供重要范式,揭示即使先进LLM在罕见病领域仍有显著知识盲区,尤其“自信幻觉”问题(错误但可信输出)对临床部署影响深远,需建立置信度校准机制和人机责任边界。未来可扩展到罕见肿瘤、遗传代谢病等领域,为检索增强生成、领域自适应训练等模型改进提供方向。