正文

InterWhen：微软开源的推理模型测试时验证框架

微软研究院推出的InterWhen框架，通过测试时验证机制在推理过程中实时检查中间状态，确保语言模型输出符合预设策略，为高风险场景下的可靠推理提供了新思路。

推理验证微软代理工作流测试时计算LeanZ3策略合规AI安全

发布时间 2026/06/12 00:44最近活动 2026/06/12 00:55预计阅读 2 分钟

章节 01

InterWhen框架导读：微软开源的推理模型实时验证方案

微软研究院推出的InterWhen框架，通过测试时验证机制在推理过程中实时检查中间状态，确保语言模型输出符合预设策略，为高风险场景（如代码生成、数学推理、代理工作流）下的可靠推理提供新思路。该框架已开源，支持从自然语言策略自动生成验证器，并在推理时引导模型轨迹合规。

章节 02

在高风险AI应用场景中，传统方法仅在模型生成最终答案后验证，存在两大缺陷：

章节 03

InterWhen的核心理念是验证器引导的推理，采用"LLM-Process-Modulo"执行模式：

章节 04

InterWhen的关键技术包括：

章节 05

InterWhen的核心特性：

章节 06

InterWhen在Maze、Game of24、SpatialEval等基准测试中验证，使用Qwen2、Phi-4等模型，结果显示：

提高给定计算预算下的准确性；
或在给定准确性下提升效率。典型场景演示包括电信代理合规（引导轨迹合规）、Maze路径计数（颜色标记验证步骤）、ZebraLogic约束分配（直观展示验证过程）。

章节 07

InterWhen的适用范围与限制：

章节 08

InterWhen开源为推理模型可靠性研究提供工具，开辟可信AI系统新路径。体现微软研究院负责任AI承诺，为学术界和工业界提供可复现基础。随着AI在关键领域部署，此类验证框架将成为确保可靠性的重要组成部分。欢迎社区通过GitHub Issue或邮件合作反馈。