正文

ConnectionsBench：评估大语言模型语义分组与横向推理能力的基准测试套件

ConnectionsBench 是一个专门评估大语言模型在纽约时报 Connections 谜题上表现的基准测试套件，通过 1000 多个不同难度等级的谜题测试模型的语义分组和横向推理能力。

基准测试大语言模型评估语义推理横向思维Connections谜题AI能力测试开源工具

发布时间 2026/04/22 18:53最近活动 2026/04/22 19:26预计阅读 2 分钟

章节 01

导读：ConnectionsBench基准测试套件核心介绍

ConnectionsBench是针对大语言模型（LLM）语义分组与横向推理能力的专门基准测试套件，基于纽约时报Connections谜题设计，包含1000多个不同难度等级的谜题，旨在填补传统LLM评估在复杂语义推理能力测试上的空白。

章节 02

随着LLM在标准化测试和学术基准上取得成绩，传统NLP基准侧重语言理解、知识检索或文本生成，但对复杂语义分组和横向推理能力评估不足。纽约时报Connections谜题要求从16个看似随机的单词中识别4组语义关联，需具备语义分组能力、横向推理能力、多层级难度处理能力，因此设计此基准。

章节 03

ConnectionsBench包含1000多个谜题，分为四个难度等级：黄色（简单，直观语义关联如宠物类别）、绿色（中等，需一词多义或专业知识）、蓝色（困难，涉及文化引用或抽象关联）、紫色（极难，含双关语或专业知识），分级系统可精确分析模型在不同推理复杂度下的表现。

章节 04

评估方法包括：1.完整谜题解决评估（需正确识别所有四组关联）；2.渐进式难度分析（分等级统计准确率）；3.错误模式分析（记录无关组合、特定关联失败、被干扰项误导等错误类型）。

章节 05

ConnectionsBench填补传统基准空白（如MMLU等未充分评估语义分组和横向推理）；揭示模型真实推理能力（区分语义理解与统计共现）；评估创造性联想能力（紫色等级谜题）；提供跨模型比较的标准化工具。

章节 06

项目处于活跃开发阶段，已完成脚手架搭建，正在开发数据管道、模型加载器、评分器、CLI工具、首次基准测试运行、结果分析和排行榜等功能。

章节 07

推动从通用能力到特定认知能力的评估转变；帮助模型开发者识别改进方向（如语义分组差则改进表示学习）；帮助AI安全研究者评估模型推理边界与风险。

章节 08

ConnectionsBench作为专注特定认知能力的基准，提供标准化平台，随着开发推进，有望成为LLM评估工具箱的重要组成部分，助力理解模型能力与局限。