正文

传统统计表示在识别专家审稿人方面超越了生成式 AI

本文评估了六种专业领域识别方法，发现 TF-IDF 在前 25 名推荐中成功识别专家的比例达到 79.5%，而 GPT-4o mini 仅为 51.5%，表明细粒度词汇比语义平滑对于区分子领域专长更为重要。

同行评审专家识别TF-IDF生成式AI信息检索学术出版

发布时间 2026/05/19 01:59最近活动 2026/05/19 11:32预计阅读 2 分钟

章节 01

传统统计方法（TF-IDF）在专家审稿人识别中显著超越生成式AI

本文评估了六种专业领域识别方法，发现TF-IDF在前25名推荐中识别专家的比例达79.5%，而GPT-4o mini仅51.5%。研究表明，细粒度词汇比语义平滑更能区分子领域专长，传统统计方法在该任务上表现更优。

章节 02

同行评审中专家识别的背景与挑战

同行评审是学术出版核心，但专家识别面临诸多难题：现代科学领域细分（如机器学习与强化学习的子领域差异）、跨学科研究增加复杂度、新兴领域分类过时、地域和语言因素影响。自动化识别系统需求迫切。

章节 03

研究设计与评估方法

研究将专家识别视为信息检索问题，以国际天文台评审系统数据为基准（作者身份作为专家代理）。评估六种方法：TF-IDF（传统统计）、GPT-4o mini（生成式AI）及其他四种（基于引用、关键词匹配等）。核心指标为前25名推荐中是否包含标记专家。

章节 04

核心发现及TF-IDF胜出原因分析

结果显示TF-IDF成功率79.5%，GPT-4o mini仅51.5%。原因包括：1.细粒度词汇vs语义平滑：TF-IDF依赖精确词匹配捕捉子领域差异，生成式AI语义平滑易过度泛化模糊边界；2.可解释性：TF-IDF透明可审计，生成式AI为黑箱；3.计算效率：TF-IDF预处理快、成本低、可扩展。

章节 05