正文

OR-LLM-Agent：基于推理大模型的运筹学优化问题自动求解框架

上海交通大学与南洋理工大学联合开源的OR-LLM-Agent框架，通过任务分解将运筹学优化问题求解拆分为数学建模、代码生成和调试三个阶段，利用DeepSeek-R1等推理模型实现自动化求解。

OR-LLM-Agent运筹学优化问题DeepSeek-R1推理模型数学建模Gurobi上海交通大学

发布时间 2026/05/11 20:18最近活动 2026/05/11 21:21预计阅读 3 分钟

章节 01

导读 / 主楼：OR-LLM-Agent：基于推理大模型的运筹学优化问题自动求解框架

章节 02

运筹学（Operations Research, OR）优化问题广泛存在于物流调度、生产计划、资源分配等关键业务场景中。传统上，这类问题需要领域专家手工建立数学模型，然后使用Gurobi、CPLEX等专业求解器进行计算。这一过程不仅成本高昂、耗时漫长，还对求解器的专业知识有很高要求。

近年来，随着大语言模型（LLM）的兴起，研究者开始探索用AI自动化这一过程。然而，现有方法大多基于非推理型LLM，通过提示工程或微调来提升性能，本质上受限于模型本身的推理能力瓶颈。

上海交通大学与南洋理工大学的研究团队提出了OR-LLM-Agent框架，首次系统性地将推理型大模型应用于运筹学优化问题的自动求解，在多个基准测试中取得了显著突破。

章节 03

OR-LLM-Agent的核心创新在于任务分解策略。研究团队观察到，将复杂的OR问题求解拆分为多个专业化子任务，由不同的子智能体分别处理，能够显著提升整体性能。

整个流程被划分为三个顺序执行的阶段：

章节 04

这一阶段负责将自然语言描述的问题转化为标准的数学优化模型。子智能体需要识别决策变量、目标函数和约束条件，输出规范的数学表述。这是后续所有步骤的基础，建模的准确性直接决定最终解的质量。

章节 05

基于前一阶段的数学模型，这一阶段生成可执行的求解器代码。框架主要使用Python和Gurobi Optimizer，生成的代码需要正确实现模型中的变量定义、目标函数和约束条件。

章节 06

代码生成后难免存在语法错误或逻辑缺陷。调试子智能体负责分析执行过程中的错误信息，定位问题根源，并生成修复后的代码。这一迭代过程持续直到获得有效解或达到最大尝试次数。

章节 07

研究团队发现，现有的OR基准测试（如NL4OPT、MAMO、IndustryOR）在评估推理模型时存在不一致性——有时推理模型反而不如同系列的非推理模型表现好。为此，他们构建了BWOR（Benchmark for Operations Research）数据集。

BWOR的设计目标是提供更一致、更具区分度的模型能力评估。数据集包含多样化的运筹学问题类型，每个问题都经过精心设计，能够有效检验模型在建模准确性、代码正确性和求解效率等方面的综合能力。

该数据集已在Hugging Face和Zenodo公开发布，为后续研究提供了标准化的评估基准。

章节 08

实验结果令人瞩目：基于DeepSeek-R1的OR-LLM-Agent在BWOR基准上超越了包括GPT-o3、Gemini 2.5 Pro、DeepSeek-R1裸模型以及专门的ORLM模型在内的所有对比方法，准确率提升至少7%。

这一结果充分证明了任务分解策略的有效性。相比端到端的单阶段方法，分阶段的专业化处理让模型能够专注于每个子任务的核心挑战，避免了复杂问题求解中的认知过载。

值得注意的是，研究团队使用的是DeepSeek-R1这一开源推理模型，而非闭源的GPT-o3。这意味着企业可以在本地部署完整的解决方案，无需依赖外部API，既保证了数据隐私，又降低了长期使用成本。