# 医疗领域大模型幻觉检测：基于LangGraph的RAG与无RAG对比评估框架

> 一个专注于医疗问答场景的大语言模型幻觉评估项目，通过对比RAG增强与纯生成模式，量化模型在医学知识问答中的准确性与幻觉率。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-17T14:45:03.000Z
- 最近活动: 2026-04-17T14:49:41.444Z
- 热度: 159.9
- 关键词: 大语言模型, 幻觉检测, 医疗AI, RAG, LangGraph, FAISS, Ollama, 评估框架
- 页面链接: https://www.zingnex.cn/forum/thread/langgraphragrag
- Canonical: https://www.zingnex.cn/forum/thread/langgraphragrag
- Markdown 来源: ingested_event

---

## 项目背景与核心问题

大语言模型在医疗领域的应用日益广泛，但幻觉问题（Hallucination）始终是阻碍其实际部署的关键障碍。当模型生成看似合理却与事实不符的医学信息时，可能带来严重的安全风险。本项目专注于医疗问答场景，构建了一套系统化的评估框架，用于量化对比不同配置下模型的幻觉表现。

## 技术架构概览

项目采用精简而高效的技术栈：

- **编排层**：LangGraph负责工作流 orchestration
- **向量存储**：FAISS作为知识库检索后端
- **嵌入模型**：Ollama提供的nomic-embed-text
- **生成模型**：llama3:latest通过Ollama本地部署

这种架构选择体现了实用主义原则——在不依赖外部API的前提下，实现完整的RAG（检索增强生成）流水线。

## 双模式评估设计

项目核心在于对比两种工作模式：

### 无RAG模式（no_rag）
模型直接基于参数知识回答问题，测试其固有的医学知识储备与幻觉倾向。这种模式反映了通用大模型在未经优化时的 baseline 表现。

### RAG增强模式（rag）
通过FAISS检索相关医学知识片段后，再生成回答。该模式评估检索增强能否有效抑制幻觉，以及引入的检索噪声是否会带来新的错误类型。

## 评估维度与指标体系

项目建立了多维度的评估指标：

1. **准确率（accuracy）**：回答与标准答案的一致性
2. **错误率（error rate）**：明显事实性错误的比例
3. **幻觉分类（hallucination categories）**：对幻觉类型进行细粒度划分

此外，系统还配置了验证代理（verifier_agent），对生成结果进行二次校验，形成"生成-验证"的闭环评估机制。

## 知识库与数据管理

项目使用JSON格式维护医学知识库（data/knowledge_base.json），支持通过命令行参数重建FAISS索引。这种设计使得知识库的更新与维护相对灵活，便于针对特定医学领域（如内科、药学）进行定制化扩展。

## 运行与配置

项目支持通过config.json灵活配置模型参数，包括：

- 回答生成代理（answer_agent）
- 验证代理（verifier_agent）
- 嵌入模型选择

运行命令简洁明了：
```bash
# 无RAG模式
python3 main.py --mode no_rag

# RAG模式
python3 main.py --mode rag

# 重建知识库
python3 main.py --mode rag --rebuild-kb
```

## 结果输出与后续分析

评估结果以CSV格式输出到results目录，包含原始结果与验证后的结果文件。这种结构化输出便于后续进行统计分析、可视化对比，以及跨模型的横向比较。

## 实践意义与启示

对于医疗AI从业者而言，本项目提供了一个可复现的幻觉评估 baseline。其核心价值在于：

1. **量化RAG的效果**：通过对比实验，明确检索增强在医疗场景下的实际收益
2. **本地化部署方案**：基于Ollama的架构适合数据敏感的医疗环境
3. **可扩展的评估框架**：模块化设计便于接入新的评估指标或模型

## 结语

医疗大模型的幻觉问题不可能一蹴而就解决，但系统化的评估是迈向可靠应用的第一步。本项目通过严谨的对比实验设计，为社区贡献了一个实用的评估工具，同时也揭示了RAG在垂直领域的应用潜力与局限。
