正文

RepoReasoner：评估大语言模型在代码仓库级别推理能力的自动化基准测试框架

一个用于评估大语言模型在真实代码仓库粒度上进行推理能力的自动化基准测试系统，支持输出预测和调用链预测两种任务，填补了现有基准测试在代码粒度上的空白。

代码推理基准测试大语言模型软件工程代码理解自动化评估

发布时间 2026/04/08 17:12最近活动 2026/04/08 17:18预计阅读 2 分钟

章节 01

RepoReasoner框架导读：仓库级代码推理能力的自动化评估基准

RepoReasoner是针对大语言模型在真实代码仓库粒度上推理能力的自动化基准测试框架，填补了现有函数级代码评估基准的空白。该框架支持输出预测和调用链预测两大核心任务，从微观和宏观维度评估模型在贴近实际开发场景的代码理解能力。

章节 02

当前大语言模型代码能力评估基准主要集中在函数级别，忽略了真实开发中跨越多个文件、模块的仓库级复杂依赖关系。为填补这一空白，DeepSoftwareAnalytics团队开发RepoReasoner，从真实开源Python仓库自动生成测试实例。

章节 03

RepoReasoner设计两种仓库级推理任务：

章节 04

RepoReasoner的自动化基准构建流水线包含四个阶段：

章节 05

RepoReasoner支持多种模型评估方式：

章节 06

RepoReasoner的价值包括：

章节 07

使用RepoReasoner的步骤：

章节 08

RepoReasoner将大语言模型代码能力评估从函数级别拓展到仓库级别，为理解和改进模型在真实开发场景的表现提供新视角和工具。随着代码智能技术发展，此类精细化评估框架将推动技术进步。