章节 01
导读:Evidence Misalignment项目——量化LLM事实锚定能力的开源框架
本开源项目针对大语言模型(LLM)的"幻觉"问题,研究参数规模(8B到405B)对事实锚定能力的影响,提出证据对齐分数(EAS)混合评估指标,支持多后端模型评估(本地Ollama、云端NVIDIA NIM/OpenAI),采用FEVER基准数据集与严谨流程,为LLM事实性评估提供系统、可复现的框架。
正文
一项研究大语言模型参数规模(8B到405B)如何影响事实锚定能力的开源项目,提出了证据对齐分数(EAS)这一混合评估指标。
章节 01
本开源项目针对大语言模型(LLM)的"幻觉"问题,研究参数规模(8B到405B)对事实锚定能力的影响,提出证据对齐分数(EAS)混合评估指标,支持多后端模型评估(本地Ollama、云端NVIDIA NIM/OpenAI),采用FEVER基准数据集与严谨流程,为LLM事实性评估提供系统、可复现的框架。
章节 02
LLM生成与事实不符内容的"幻觉"问题是AI领域关键挑战。随着模型规模从80亿扩展到4050亿参数,核心问题:更大的模型是否更善于将生成内容与证据对齐?GitHub开源的Evidence Misalignment项目为此提供系统性评估框架。
章节 03
EAS是量化LLM生成声明与证据对齐程度的混合指标,由两部分加权组成:
计算公式:EAS = α × semantic_score + β × entailment_score
对齐等级:
章节 04
采用FEVER(Fact Extraction and VERification)事实验证权威数据集,包含SUPPORTS和REFUTES两类标签声明。为确保公平性,采用平衡采样策略:相等数量的SUPPORTS和REFUTES样本,避免类别偏差。
章节 05
| 后端 | 触发条件 | 示例模型 |
|---|---|---|
| Ollama(本地) | 名称不含/ | llama3, mistral, llama3.1:8b, qwen2:7b |
| NVIDIA NIM(云端) | 名称包含/ | meta/llama-3.1-8b-instruct, meta/llama-3.1-405b-instruct |
| OpenAI(云端) | 名称以gpt开头 | gpt-4o, gpt-4o-mini |
覆盖8B到405B参数:Llama3.1 8B/70B/405B、Mixtral8x7B、GPT-4o系列
章节 06
章节 07
模块化架构核心组件:data_loader.py(数据集加载)、claim_segmenter.py(句子分割)、evidence_retriever.py(证据提取)、semantic_scorer.py(余弦相似度)、nli_scorer.py(NLI评分)、eas_calculator.py(EAS计算)、llm_client.py(多后端客户端)
本项目为LLM事实锚定能力提供系统可复现的评估框架,EAS指标量化对齐程度,助力探索模型规模与事实性的关系。对AI可信度、幻觉问题及RAG优化的开发者和研究者具有重要价值,是迈向更可信AI系统的关键工具。