Zing 论坛

正文

NeSy:神经符号诊断框架融合大模型与知识图谱的医疗推理新范式

NeSy 是一个创新的神经符号诊断框架,通过结合大语言模型和Neo4j知识图谱,利用DOID和SYMP医学本体论实现可解释的疾病推理,在100个测试案例中实现了100%的否定症状过滤准确率。

神经符号AI医疗诊断知识图谱大语言模型Neo4j本体论可解释AI
发布时间 2026/05/11 18:13最近活动 2026/05/11 18:21预计阅读 8 分钟
NeSy:神经符号诊断框架融合大模型与知识图谱的医疗推理新范式
1

章节 01

导读 / 主楼:NeSy:神经符号诊断框架融合大模型与知识图谱的医疗推理新范式

NeSy 是一个创新的神经符号诊断框架,通过结合大语言模型和Neo4j知识图谱,利用DOID和SYMP医学本体论实现可解释的疾病推理,在100个测试案例中实现了100%的否定症状过滤准确率。

2

章节 02

背景

NeSy:神经符号诊断框架融合大模型与知识图谱的医疗推理新范式\n\n## 项目背景与动机\n\n医疗诊断是一个复杂的过程,需要整合患者的症状描述、医学知识和临床经验。传统的纯大语言模型(LLM)方法虽然能够理解和生成自然语言,但容易产生幻觉,无法保证推理结果基于经过同行评审的医学知识。\n\nNeSy(Neuro-Symbolic Diagnostic Framework)应运而生,它旨在弥合神经自然语言处理与符号知识表示之间的鸿沟,通过将LLM与知识图谱(Neo4j)相结合,构建一个既智能又可解释的诊断辅助系统。\n\n## 核心架构与技术方案\n\n### 双层架构设计\n\nNeSy采用神经符号混合架构,分为两个主要层次:\n\n**神经层(Neural Layer)负责处理自然语言输入。当用户描述症状时,LLM首先解析非结构化文本,识别出临床体征和症状,过滤掉噪声和无关上下文。随后,提取的症状通过多语言E5大模型转换为高维向量表示,实现语义搜索——系统能够理解"头痛"和"头胀"在语义上是相似的,即使词汇不同。\n\n符号层(Symbolic Layer)**基于Neo4j图数据库进行确定性推理。系统利用DOID(人类疾病本体论)和SYMP(症状本体论)两个标准化的医学本体论,通过RO_0002452(has symptom)关系构建知识图谱,确保所有推理都基于经过验证的医学关系。\n\n### 信息内容加权评分机制\n\nNeSy引入了一种创新的评分公式,结合信息内容(IC)加权和平方根归一化,防止宽泛的疾病主导推理结果:\n\n\nnormalized_score = ΣIC(matched_symptoms) / √count(disease_symptoms)\n\n\n这种机制确保了特异性优于数量——一个具有两个高IC症状的疾病可以排在具有十个通用症状的疾病之前,提供更公平、更具临床意义的排名。\n\n## 实验评估与关键发现\n\n### LLM提取性能对比\n\nNeSy对7个不同规模的LLM进行了系统比较,结果揭示了一个反直觉的"高智能偏见"现象:\n\n| 模型 | 参数量 | 类型 | F1分数 |\n|------|--------|------|--------|\n| qwen2.5:14b | 14B | 本地 | 0.825 ✅ |\n| llama3:8b | 8B | 本地 | 0.800 ✅ |\n| mistral-nemo:12b | 12B | 本地 | 0.790 |\n| phi4:14b | 14B | 本地 | 0.772 |\n| llama3.2:3b | 3B | 本地 | 0.731 |\n| llama-4-scout-17b | 17B | 云端 | 0.763 |\n| gpt-oss-120b | 120B | 云端 | 0.691 |\n\nqwen2.5:14b取得了最高的F1分数,甚至超过了参数量大8倍的模型。这表明在医学术语提取任务中,模型的指令遵循能力比单纯的规模更重要。\n\n### 否定症状过滤的确定性保证\n\nNeSy的符号层支持显式否定:患者没有的症状会主动排除匹配的疾病。在1,263个测试案例的验证中,这一机制实现了:\n\n- 排除准确率:100%\n\n- 保留准确率:100%\n\n- 附带过滤错误:0\n\n这意味着否定过滤器是确定性的——每个缺失的症状都能可靠地阻止相似疾病,同时目标疾病不受影响。\n\n### 推理性能表现\n\n在完整症状条件下,系统仅使用IC加权图遍历(无需训练分类器或机器学习组件)就在424种疾病上取得了强劲结果:\n\n| 场景 | Hit@1 | Hit@3 | Hit@5 |\n|------|-------|-------|-------|\n| 完全匹配(所有症状) | 85.4% | 92.0% | 93.2% |\n| 部分匹配(缺失1个症状) | 57.3% | 67.7% | 71.2% |\n| 部分匹配(缺失2个症状) | 50.0% | 63.0% | 67.9% |\n\n随着症状可用性的降低,系统性能 gracefully 降级,这反映了真实的临床场景——患者并不总是报告完整的症状概况。\n\n## 可解释AI与透明度\n\nNeSy的XAI LLM模块作为最终的合成桥梁,将符号层的结构化推理结果转换为自然语言解释。不同于仅显示分数,系统会生成透明的解释:\n\n> "基于报告的[症状A],这是DOID本体论中[疾病B]的高权重指标..."\n\n这种可解释性对于医疗应用至关重要,医生和患者都需要理解系统做出特定诊断建议的原因。\n\n## 技术栈与实现\n\nNeSy基于现代技术栈构建:\n\n- FastAPI:提供高性能的API接口\n- Neo4j:存储和查询知识图谱\n- 多语言E5大模型:生成症状嵌入向量\n- 多种LLM支持:包括Qwen、Llama、Mistral、GPT等\n\n## 局限性与未来方向\n\nNeSy目前是一个研究原型,不适用于实际临床诊断。未来的工作方向包括:\n\n- 扩展支持更多的医学本体论和知识源\n- 集成电子健康记录(EHR)数据\n- 支持多模态输入(如医学影像)\n- 通过持续学习更新知识图谱\n\n## 总结\n\nNeSy展示了神经符号AI在医疗领域的巨大潜力。通过结合LLM的自然语言理解能力和知识图谱的确定性推理,NeSy实现了既智能又可信的诊断辅助。其"高智能偏见"的发现也为LLM选型提供了有价值的见解——在特定领域任务中,合适的模型比更大的模型更重要。

3

章节 03

补充观点 1

NeSy:神经符号诊断框架融合大模型与知识图谱的医疗推理新范式\n\n项目背景与动机\n\n医疗诊断是一个复杂的过程,需要整合患者的症状描述、医学知识和临床经验。传统的纯大语言模型(LLM)方法虽然能够理解和生成自然语言,但容易产生幻觉,无法保证推理结果基于经过同行评审的医学知识。\n\nNeSy(Neuro-Symbolic Diagnostic Framework)应运而生,它旨在弥合神经自然语言处理与符号知识表示之间的鸿沟,通过将LLM与知识图谱(Neo4j)相结合,构建一个既智能又可解释的诊断辅助系统。\n\n核心架构与技术方案\n\n双层架构设计\n\nNeSy采用神经符号混合架构,分为两个主要层次:\n\n**神经层(Neural Layer)负责处理自然语言输入。当用户描述症状时,LLM首先解析非结构化文本,识别出临床体征和症状,过滤掉噪声和无关上下文。随后,提取的症状通过多语言E5大模型转换为高维向量表示,实现语义搜索——系统能够理解"头痛"和"头胀"在语义上是相似的,即使词汇不同。\n\n符号层(Symbolic Layer)**基于Neo4j图数据库进行确定性推理。系统利用DOID(人类疾病本体论)和SYMP(症状本体论)两个标准化的医学本体论,通过RO_0002452(has symptom)关系构建知识图谱,确保所有推理都基于经过验证的医学关系。\n\n信息内容加权评分机制\n\nNeSy引入了一种创新的评分公式,结合信息内容(IC)加权和平方根归一化,防止宽泛的疾病主导推理结果:\n\n\nnormalized_score = ΣIC(matched_symptoms) / √count(disease_symptoms)\n\n\n这种机制确保了特异性优于数量——一个具有两个高IC症状的疾病可以排在具有十个通用症状的疾病之前,提供更公平、更具临床意义的排名。\n\n实验评估与关键发现\n\nLLM提取性能对比\n\nNeSy对7个不同规模的LLM进行了系统比较,结果揭示了一个反直觉的"高智能偏见"现象:\n\n| 模型 | 参数量 | 类型 | F1分数 |\n|------|--------|------|--------|\n| qwen2.5:14b | 14B | 本地 | 0.825 ✅ |\n| llama3:8b | 8B | 本地 | 0.800 ✅ |\n| mistral-nemo:12b | 12B | 本地 | 0.790 |\n| phi4:14b | 14B | 本地 | 0.772 |\n| llama3.2:3b | 3B | 本地 | 0.731 |\n| llama-4-scout-17b | 17B | 云端 | 0.763 |\n| gpt-oss-120b | 120B | 云端 | 0.691 |\n\nqwen2.5:14b取得了最高的F1分数,甚至超过了参数量大8倍的模型。这表明在医学术语提取任务中,模型的指令遵循能力比单纯的规模更重要。\n\n否定症状过滤的确定性保证\n\nNeSy的符号层支持显式否定:患者没有的症状会主动排除匹配的疾病。在1,263个测试案例的验证中,这一机制实现了:\n\n- 排除准确率:100%\n\n- 保留准确率:100%\n\n- 附带过滤错误:0\n\n这意味着否定过滤器是确定性的——每个缺失的症状都能可靠地阻止相似疾病,同时目标疾病不受影响。\n\n推理性能表现\n\n在完整症状条件下,系统仅使用IC加权图遍历(无需训练分类器或机器学习组件)就在424种疾病上取得了强劲结果:\n\n| 场景 | Hit@1 | Hit@3 | Hit@5 |\n|------|-------|-------|-------|\n| 完全匹配(所有症状) | 85.4% | 92.0% | 93.2% |\n| 部分匹配(缺失1个症状) | 57.3% | 67.7% | 71.2% |\n| 部分匹配(缺失2个症状) | 50.0% | 63.0% | 67.9% |\n\n随着症状可用性的降低,系统性能 gracefully 降级,这反映了真实的临床场景——患者并不总是报告完整的症状概况。\n\n可解释AI与透明度\n\nNeSy的XAI LLM模块作为最终的合成桥梁,将符号层的结构化推理结果转换为自然语言解释。不同于仅显示分数,系统会生成透明的解释:\n\n> "基于报告的[症状A],这是DOID本体论中[疾病B]的高权重指标..."\n\n这种可解释性对于医疗应用至关重要,医生和患者都需要理解系统做出特定诊断建议的原因。\n\n技术栈与实现\n\nNeSy基于现代技术栈构建:\n\n- FastAPI:提供高性能的API接口\n- Neo4j:存储和查询知识图谱\n- 多语言E5大模型:生成症状嵌入向量\n- 多种LLM支持:包括Qwen、Llama、Mistral、GPT等\n\n局限性与未来方向\n\nNeSy目前是一个研究原型,不适用于实际临床诊断。未来的工作方向包括:\n\n- 扩展支持更多的医学本体论和知识源\n- 集成电子健康记录(EHR)数据\n- 支持多模态输入(如医学影像)\n- 通过持续学习更新知识图谱\n\n总结\n\nNeSy展示了神经符号AI在医疗领域的巨大潜力。通过结合LLM的自然语言理解能力和知识图谱的确定性推理,NeSy实现了既智能又可信的诊断辅助。其"高智能偏见"的发现也为LLM选型提供了有价值的见解——在特定领域任务中,合适的模型比更大的模型更重要。