# RareScopeDB：用困惑度与疾病知识评分识别大语言模型在罕见病领域的知识盲区与自信幻觉

> RareScopeDB通过结合困惑度（PPL）和疾病知识评分（DKS），系统评估大语言模型在罕见病领域的知识状态，将疾病级知识划分为稳定知识、知识盲区、自信幻觉和不稳定知识四类，为医疗AI的安全应用提供了重要的诊断工具。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-05-13T05:21:20.000Z
- 最近活动: 2026-05-13T05:31:48.486Z
- 热度: 143.8
- 关键词: 大语言模型, 罕见病, 医疗AI, 幻觉检测, 知识盲区, 困惑度, HPO本体, 机器学习评估, AI安全
- 页面链接: https://www.zingnex.cn/forum/thread/rarescopedb
- Canonical: https://www.zingnex.cn/forum/thread/rarescopedb
- Markdown 来源: ingested_event

---

# RareScopeDB：用困惑度与疾病知识评分识别大语言模型在罕见病领域的知识盲区与自信幻觉

## 背景与动机

大语言模型（LLM）在医疗领域的应用日益广泛，但罕见病诊断因其数据稀缺性和知识复杂性，成为检验模型可靠性的关键场景。罕见病通常指患病率极低的疾病，全球已知的罕见病超过7000种，但每种疾病的病例数极少，导致训练数据严重不足。当医生或患者向AI咨询罕见病症状时，模型可能产生两种危险情况：一是对不了解的疾病给出自信但错误的回答（自信幻觉），二是对应该掌握的知识表现出不确定性（不稳定知识）。这两种情况都可能延误诊断，造成严重后果。

RareScopeDB项目的核心目标是通过量化评估方法，系统性地识别大语言模型在罕见病领域的知识盲区，为医疗AI的安全部署提供科学依据。该项目基于9171种罕见病的人类表型本体论（HPO）关联数据，建立了完整的评估框架。

## 核心方法论：双指标评估体系

RareScopeDB创新性地结合了两种互补的评估指标：困惑度（Perplexity, PPL）和疾病知识评分（Disease Knowledge Score, DKS）。

### 困惑度（PPL）

困惑度是衡量语言模型预测下一个token时不确定性的经典指标。在RareScopeDB的框架中，研究人员通过分析模型生成罕见病相关表型和基因集合时的输出token概率，计算每个疾病的困惑度百分位数。高困惑度意味着模型在生成该疾病相关信息时表现出较高的不确定性。

### 疾病知识评分（DKS）

疾病知识评分则通过与标准HPO参考知识的对比，量化模型生成内容与权威医学知识库的一致性。DKS计算模型生成的表型-基因关联与HPO标准数据的匹配程度，从而评估模型对该疾病的实际知识掌握水平。

### 四类知识状态划分

通过将PPL和DKS两个维度交叉分析，RareScopeDB将疾病级知识状态划分为四个象限：

- **稳定知识（Stable Knowledge）**：低困惑度 + 高DKS。模型对该疾病有充分的知识储备，且回答时表现出高置信度。这是最理想的知识状态。

- **知识盲区（Knowledge Blind Spot）**：高困惑度 + 低DKS。模型缺乏该疾病的相关知识，且能正确认识到自身的不确定性。这种情况下模型应该明确拒绝回答或建议咨询专家。

- **自信幻觉（Confident Hallucination）**：低困惑度 + 低DKS。这是最危险的状态——模型实际上缺乏相关知识，但在回答时表现出高度自信。这种"自信的胡说八道"在医疗场景中可能造成误诊风险。

- **不稳定知识（Unstable Knowledge）**：高困惑度 + 高DKS。模型掌握了相关知识，但在表达时表现出不确定性。这可能是由于训练数据中的噪声或矛盾信息导致的。

## 数据集与工具链

RareScopeDB项目提供了丰富的开源资源，包括：

### 核心数据集

- **RareScopeDB.xlsx**：包含9171种罕见病的完整分析表，涵盖疾病标识符、疾病名称、参考表型/基因信息、PPL百分位数、DKS百分位数以及PPL-DKS知识状态分类。

- **qwen3.6-35b-a3b_raw.xlsx**：用于结构化知识评估的原始提示和模型输出数据。

- **下游诊断问题集**：包括FGDD和RareBench（含HMS、LIRICAL、MME、RAMEDIS子集）的诊断问题，用于评估模型在实际诊断场景中的表现。

### 分析工具

项目提供了完整的Jupyter Notebook工作流：

- **perplexity_pipeline.ipynb**：模型查询和输出token对数概率收集的完整流程。

- **phenotype_tool.ipynb**：HPO表型术语标准化工具，用于将模型生成的表型术语映射到标准HPO本体。

- **results_analyze1.ipynb**：表型/基因性能指标计算、DKS计算、PPL-DKS知识状态分配以及下游诊断分析的综合工作流。

- **Diagnosis.ipynb**：罕见病诊断推理的下游评估工作流。

## 实际应用与在线浏览器

为了让研究人员和临床医生能够直观探索这些评估结果，RareScopeDB提供了在线浏览器，访问地址为https://bioinf.org.cn:8055/。用户可以通过该界面查询特定罕见病的知识状态，查看模型对该疾病的表型生成质量和基因关联准确性。

这种可视化工具对于以下场景特别有价值：

- **模型开发者**：识别模型在哪些疾病领域存在系统性缺陷，指导针对性改进。

- **医疗AI产品经理**：了解模型能力的边界，设计合适的人机协作流程。

- **临床医生**：评估AI辅助诊断工具的可信度，知道何时应该寻求第二意见。

## 技术实现细节

RareScopeDB的实现基于Python 3.10+环境，主要依赖包括HPO本体处理库、数据分析工具和机器学习框架。值得注意的是，项目中涉及API调用的部分（如大语言模型查询）需要用户自行配置API密钥和端点，代码中已用占位符标注了需要填写 credentials 的位置。

HPO标准化工具使用了Human Phenotype Ontology的官方资源文件（hp.obo、hp.json等），确保与权威医学知识库的一致性。所有数据标识符均保持与原始发布工作簿一致，便于与其他医学数据库进行交叉引用。

## 研究意义与未来展望

RareScopeDB的研究为医疗AI的可解释性和安全性评估提供了重要范式。通过系统性地量化模型的知识边界，该项目帮助业界认识到：即使是先进的大语言模型，在罕见病等专业领域仍存在显著的知识盲区。

更重要的是，RareScopeDB揭示了"自信幻觉"这一关键问题——模型可能在不自知的情况下产生错误但看似可信的输出。这一发现对医疗AI的部署策略具有深远影响：在将AI应用于临床决策支持时，必须建立有效的置信度校准机制，并明确界定人机责任边界。

未来，类似RareScopeDB的评估方法可以扩展到其他医学专科领域，如罕见肿瘤、遗传代谢病等。同时，该框架也为开发针对性的模型改进策略（如检索增强生成、领域自适应训练）提供了明确的方向指引。
