正文

InteractComp：面向大语言模型交互推理能力的系统化评测框架

本文介绍 InteractComp，一个专为评估大语言模型交互推理能力设计的评测框架，支持多种交互模式并内置ReAct风格智能体，为模型决策能力的系统性分析提供标准化工具。

大语言模型评测交互推理ReActAgent异步评估工具使用多轮对话决策能力基准测试AI框架

发布时间 2026/05/04 05:15最近活动 2026/05/04 05:50预计阅读 2 分钟

章节 01

导读：InteractComp——大模型交互推理能力的系统化评测框架

本文介绍InteractComp，一个专为评估大语言模型交互推理能力设计的评测框架。它支持多种交互模式，内置ReAct风格智能体，提供异步评估流水线，为模型决策能力的系统性分析提供标准化工具，填补了传统单轮问答基准无法评估交互推理能力的空白。

章节 02

背景：交互推理——大模型能力的新维度

大语言模型在静态问答任务上表现已接近或超越人类，但现实问题往往需要多轮交互解决。交互推理能力要求模型在信息不足时主动搜索、理解模糊时澄清问题、动态调整策略，而传统单轮问答基准难以评估这种能力。InteractComp项目正是为填补这一空白诞生。

章节 03

方法：InteractComp框架核心设计

ReAct风格智能体

框架内置可复用的ReAct智能体，将推理（Thought）和行动（Action）紧密结合，显式输出思考过程与行动指令，帮助评估者理解决策逻辑。

多动作支持

覆盖6种交互模式：纯回答、纯搜索、纯提问、完整模式、带上下文完整模式、强制提问模式，细粒度控制以隔离评估特定能力。

异步评估流水线

基于asyncio构建异步编排系统，支持同时评估多个模型，显著缩短API调用瓶颈导致的评估时间，提升实验效率。

章节 04

应用场景：InteractComp的典型使用场景

模型能力诊断：对比不同动作模式下的表现，识别能力短板（如纯回答优异但搜索模式差则缺乏利用外部信息能力）。
交互策略优化：测试不同策略（如先搜索后提问），找到适合场景的决策流程。
多模型对比：标准化接口支持对比GPT-4、Claude等模型在相同任务的表现，生成可复现报告。
提示工程验证：量化不同prompt设计对交互推理效果的影响，进行系统性优化。

章节 05

技术实现：模块化设计与核心组件

框架采用模块化设计，核心组件包括：

动作执行器：调用搜索API、处理用户输入等外部交互。
状态管理器：维护对话历史、中间结果等上下文信息。
评估器：根据任务定义判断输出是否正确。
指标计算器：汇总准确率、交互轮数、搜索次数等指标。模块化设计便于扩展新动作或接入新模型。

章节 06

使用方式：简洁API与多维度评估报告

使用步骤：定义评测任务（初始问题、期望答案、可用工具）→配置待测模型和评估模式→启动评估流程。框架自动记录交互日志。

评估报告维度：

成功率：正确解决问题的比例
平均交互轮数：反映决策效率
工具使用分布：搜索、提问等动作频率
错误类型分析：知识不足、推理错误、工具误用等分类

章节 07

贡献与未来：完善大模型评测体系的方向

对评测体系的贡献

现有基准（如MMLU、HumanEval）关注静态知识和单轮推理，InteractComp填补多轮交互和工具使用能力评测空白。开源发布为学术界和工业界提供标准化工具，助力构建更全面的评估体系。

未来发展方向

多智能体交互：评测协作场景表现
长期任务规划：测试长周期任务规划能力
用户模拟：用大模型模拟真实用户，测试交互自然度
对抗性评测：设计模糊任务测试鲁棒性 InteractComp为这些扩展提供基础架构。