正文

S1-VL：具备"图像思维"能力的科学多模态推理模型

S1-VL是面向科学领域的多模态推理模型，支持结构化科学推理和"图像思维"两种范式。后者让模型能在推理过程中生成并执行图像处理代码，特别适用于高分辨率科学图表解读、显微图像理解和几何辅助推理。

多模态推理科学AI图像思维视觉推理代码生成科学图表AI for Science

发布时间 2026/04/23 16:23最近活动 2026/04/24 12:27预计阅读 16 分钟

章节 01

导读 / 主楼：S1-VL：具备"图像思维"能力的科学多模态推理模型

章节 02

背景

S1-VL：具备"图像思维"能力的科学多模态推理模型\n\n## 科学推理的独特挑战\n\n大语言模型在文本推理任务上取得了惊人进展，从数学证明到代码生成，从逻辑推理到创意写作。然而，科学领域的推理往往涉及另一个关键维度：视觉信息。\n\n想象一个物理学家正在分析一张复杂的粒子碰撞轨迹图，或一个生物学家在观察显微镜下的细胞分裂过程。他们的推理过程不是纯粹的符号操作，而是不断地"看图"、"标注"、"测量"、"对比"。这种"图像思维"能力是科学发现的核心，却长期被现有的AI系统所忽视。\n\nS1-VL正是为了填补这一空白而生。它是一个面向科学领域的多模态推理模型，原生支持两种互补的推理范式：传统的结构化科学推理，以及创新的"图像思维"模式。\n\n## 双范式架构：科学推理与图像思维\n\nS1-VL的设计理念是：不同的科学问题需要不同的推理方式。有些问题适合纯符号推理，而有些则需要与视觉信息的深度交互。\n\n### 范式一：科学推理（Scientific Reasoning）\n\n这是传统的链式思维（Chain-of-Thought）方法，模型通过结构化的文本推理逐步解决问题。适用于：\n\n- 公式推导和数学证明\n- 基于文本描述的概念分析\n- 逻辑严密的假设检验\n\n在这种模式下，S1-VL像一位严谨的科学家，用文字记录下每一步推理过程，确保逻辑链条的完整性。\n\n### 范式二：图像思维（Thinking-with-Images）\n\n这是S1-VL的核心创新。在这种模式下，模型不仅仅是"看"图像，而是能够主动"操作"图像——生成并执行图像处理代码，获取中间视觉结果，然后基于这些结果继续推理。整个过程是多轮迭代的。\n\n具体流程如下：\n\n1. 初始观察：模型接收输入图像和问题\n2. 代码生成：模型生成Python图像处理代码（如裁剪、缩放、滤波、边缘检测等）\n3. 沙箱执行：代码在隔离的沙箱环境中执行，生成处理后的图像或提取的数值\n4. 结果观察：模型"看到"执行结果\n5. 继续推理：基于新的视觉信息，模型生成下一步代码或得出初步结论\n6. 迭代循环：重复步骤2-5，直到问题解决\n\n这种"思维-操作-观察-再思维"的循环，模拟了人类科学家在显微镜前或实验室中的真实工作方式。\n\n## 应用场景：图像思维大放异彩\n\n图像思维模式在以下场景中展现出独特优势：\n\n### 高分辨率科学图表解读\n\n现代科学论文中的图表往往包含海量信息。一张基因组学数据的热图可能有数千个数据点，一张天体物理学的光谱图可能跨越多个数量级的动态范围。\n\n传统多模态模型通常将图像统一缩放到固定分辨率（如224x224或336x336），这种压缩会丢失关键细节。S1-VL的图像思维模式则可以：\n\n- 先生成代码将图表分块，逐个区域详细检查\n- 对感兴趣区域进行局部放大，观察细节特征\n- 提取具体数值，进行定量分析\n- 对比不同区域的模式，发现异常或规律\n\n### 显微图像理解\n\n显微镜下的世界充满了精细结构：细胞器的形态、蛋白质的定位、组织的纹理。理解这些图像需要：\n\n- 调整对比度和亮度，突出特定结构\n- 应用边缘检测或形态学操作，分离感兴趣区域\n- 测量几何参数（大小、形状、分布）\n- 与标准图谱进行对比识别\n\nS1-VL可以自主执行这些操作，就像一位经验丰富的显微镜操作员。\n\n### 几何辅助推理\n\n几何问题天然需要视觉推理。证明一个几何定理往往需要：\n\n- 在图中添加辅助线\n- 测量角度和长度\n- 验证全等或相似关系\n- 通过构造来验证猜想\n\n图像思维让S1-VL能够"动手"解决这些问题，而不是仅仅依赖预训练的几何知识。\n\n## 六维质量过滤框架\n\n训练S1-VL的一个关键挑战是数据质量。科学多模态数据极其多样，从数学公式到生物标本，从天文图像到化学结构。如何确保训练数据的质量？\n\n研究团队开发了一个六维质量过滤框架，从以下六个维度评估每个样本：\n\n### 维度一：视觉信息增益\n\n评估图像操作是否真正带来了新的视觉信息。如果模型执行了一系列操作但结果与原图几乎相同，这个样本的视觉信息增益就很低。\n\n### 维度二：推理连贯性\n\n检查推理步骤之间的逻辑关系是否合理。每一步都应该基于前一步的结果，并导向最终答案。\n\n### 维度三：代码正确性\n\n验证生成的图像处理代码是否能够正确执行，是否会产生预期的输出。\n\n### 维度四：科学准确性\n\n确保推理内容和结论符合科学事实。这对于科学领域模型尤为重要。\n\n### 维度五：多模态对齐\n\n检查文本推理与图像内容是否一致。模型不应该" hallucinate "图像中不存在的特征。\n\n### 维度六：教育价值\n\n评估样本是否展示了有价值的推理模式，是否有助于模型学习通用的科学推理策略。\n\n## 自适应数据路由策略\n\n基于六维评估，研究团队进一步提出了自适应数据路由策略。核心洞察是：并非所有样本都适合图像思维模式。\n\n对于视觉信息增益低的样本（例如，图像只是装饰性的，问题可以通过纯文本推理解决），系统会将其转换为纯科学推理模式的数据。这样，模型可以学会"判断"何时需要图像操作，何时可以直接文本推理。\n\n这种自适应路由带来了两个好处：\n\n1. 效率提升：避免在不必要的情况下执行昂贵的图像操作\n2. 能力分化：让模型明确区分两种推理范式，避免混淆\n\n## 四阶段渐进训练流程\n\nS1-VL的训练是一个精心设计的四阶段流程：\n\n### 阶段一：科学多模态监督微调（SFT）\n\n首先，在广泛的科学多模态数据上进行基础训练。数据来源涵盖六个学科：\n- 数学：几何、代数、微积分问题\n- 物理：力学、电磁学、光学问题\n- 化学：分子结构、反应机理、实验分析\n- 天文学：星图识别、光谱分析、天体测量\n- 地理学：地图解读、地质剖面、气象图表\n- 生物学：细胞图像、解剖图谱、生态数据\n\n这一阶段的目标是建立基础的多模态理解能力。\n\n### 阶段二：图像思维冷启动SFT\n\n在基础能力之上，专门训练图像思维模式。模型学习：\n- 何时触发图像思维（vs. 纯文本推理）\n- 如何编写有效的图像处理代码\n- 如何解释代码执行结果\n- 如何规划多轮图像操作序列\n\n### 阶段三：基于SAPO的强化学习（第一轮）\n\nSAPO（Self-Adaptive Policy Optimization）是一种针对推理任务的强化学习方法。在这一阶段，模型通过试错学习改进其推理策略。奖励信号基于：\n- 最终答案的正确性\n- 推理过程的效率（步骤数、代码执行次数）\n- 中间结果的质量\n\n### 阶段四：基于SAPO的强化学习（第二轮）\n\n进一步的强化学习，使用更复杂的样本和更严格的评估标准。这一阶段旨在提炼和巩固已学习的能力，提高模型的鲁棒性和泛化性。\n\n## 基准测试与性能表现\n\nS1-VL-32B（基于Qwen3-VL-32B-Thinking构建）在13个基准测试上进行了评估，结果令人印象深刻：\n\n### 图像思维基准\n\n在五个专门的图像思维基准上，S1-VL-32B达到了最先进的性能：\n\n- HRBench-4K/8K：高分辨率图像理解基准\n- MME-RealWorld-CN/Lite：真实世界多模态评估\n- V*：视觉推理基准\n\n这些基准测试了模型处理高分辨率图像、执行复杂视觉推理、以及与现实世界图像交互的能力。S1-VL的全面领先证明了图像思维范式的有效性。\n\n### 科学推理基准\n\n在科学推理基准（如Physics、VRSBench）上，S1-VL也超越了对比系统。这表明两种范式的结合产生了协同效应——图像思维不仅没有削弱纯文本推理能力，反而通过视觉验证增强了整体表现。\n\n## 技术实现细节\n\n### 基础模型选择\n\nS1-VL-32B基于Qwen3-VL-32B-Thinking构建。选择这一基础的原因包括：\n- 强大的视觉理解能力\n- 优秀的文本推理基础\n- 支持长上下文（对于多轮图像思维至关重要）\n- 开放的权重和良好的可扩展性\n\n### 沙箱环境设计\n\n图像思维的代码执行需要安全隔离的沙箱环境。关键设计考虑：\n\n- 安全性：限制可执行的Python操作，防止恶意代码\n- 效率：快速启动和销毁沙箱，支持高吞吐训练\n- 功能丰富：预装常用的图像处理库（PIL, OpenCV, NumPy, Matplotlib等）\n- 资源限制：控制CPU/内存使用，防止资源耗尽\n\n### 多轮交互协议\n\n模型与沙箱之间的交互需要明确的协议：\n\n1. 模型生成包含代码的特殊token序列\n2. 系统提取代码并送入沙箱执行\n3. 沙箱返回执行结果（输出图像或数值）\n4. 结果被编码并插入到模型的上下文\n5. 模型基于更新后的上下文继续生成\n\n这种协议需要在训练数据中明确标注，让模型学会正确的交互模式。\n\n## 局限与未来方向\n\n### 当前局限\n\n- 计算成本：图像思维模式需要多次代码执行，推理成本高于纯文本模型\n- 沙箱依赖：需要维护复杂的沙箱基础设施\n- 错误累积：多轮交互中，早期的错误可能影响后续推理\n\n### 未来方向\n\n- 更智能的路由：开发更精细的启发式方法，更准确地判断何时需要图像思维\n- 工具扩展：除了图像处理，整合更多科学工具（如符号计算、数据分析库）\n- 实时交互：支持用户介入，与模型协作完成复杂的科学推理\n- 领域特化：针对特定科学领域（如医学影像、材料科学）开发专门版本\n\n## 更广泛的影响：AI for Science的新范式\n\nS1-VL代表了"AI for Science"的一个重要发展方向：从被动的信息处理，到主动的实验操作。传统AI系统只能"读"科学文献，而S1-VL展示了AI也能"做"科学实验——至少在数字领域。\n\n这种"数字实验员"的能力有着深远意义：\n\n- 加速科学发现：自动执行常规的数据分析任务，让科学家专注于创新\n- 降低门槛：使非专家也能进行复杂的科学图像分析\n- 教育革新：作为交互式学习工具，展示科学推理的完整过程\n- 可重复性：自动记录所有操作步骤，提高科学研究的可重复性\n\n## 结语：当AI学会"动手"思考\n\nS1-VL的"图像思维"能力，本质上是一种"具身认知"——AI不再是被动的信息处理器，而是能够通过操作环境（这里是数字图像）来辅助思考的智能体。这与人类认知科学中的"延展心智"理论相呼应：思维不仅发生在头脑（或神经网络）中，也发生在与环境的交互中。\n\n从更广阔的视角看，S1-VL是向"通用科学智能体"迈进的重要一步。未来的AI科学家可能不仅能读论文、写代码，还能操作显微镜、调整实验参数、分析观测数据——成为人类科学家的真正合作伙伴。\n\n科学的未来，或许是人类与AI共同"看图思考"的未来。

章节 03

补充观点 1

S1-VL：具备"图像思维"能力的科学多模态推理模型\n\n科学推理的独特挑战\n\n大语言模型在文本推理任务上取得了惊人进展，从数学证明到代码生成，从逻辑推理到创意写作。然而，科学领域的推理往往涉及另一个关键维度：视觉信息。\n\n想象一个物理学家正在分析一张复杂的粒子碰撞轨迹图，或一个生物学家在观察显微镜下的细胞分裂过程。他们的推理过程不是纯粹的符号操作，而是不断地"看图"、"标注"、"测量"、"对比"。这种"图像思维"能力是科学发现的核心，却长期被现有的AI系统所忽视。\n\nS1-VL正是为了填补这一空白而生。它是一个面向科学领域的多模态推理模型，原生支持两种互补的推理范式：传统的结构化科学推理，以及创新的"图像思维"模式。\n\n双范式架构：科学推理与图像思维\n\nS1-VL的设计理念是：不同的科学问题需要不同的推理方式。有些问题适合纯符号推理，而有些则需要与视觉信息的深度交互。\n\n范式一：科学推理（Scientific Reasoning）\n\n这是传统的链式思维（Chain-of-Thought）方法，模型通过结构化的文本推理逐步解决问题。适用于：\n\n- 公式推导和数学证明\n- 基于文本描述的概念分析\n- 逻辑严密的假设检验\n\n在这种模式下，S1-VL像一位严谨的科学家，用文字记录下每一步推理过程，确保逻辑链条的完整性。\n\n范式二：图像思维（Thinking-with-Images）\n\n这是S1-VL的核心创新。在这种模式下，模型不仅仅是"看"图像，而是能够主动"操作"图像——生成并执行图像处理代码，获取中间视觉结果，然后基于这些结果继续推理。整个过程是多轮迭代的。\n\n具体流程如下：\n\n1. 初始观察：模型接收输入图像和问题\n2. 代码生成：模型生成Python图像处理代码（如裁剪、缩放、滤波、边缘检测等）\n3. 沙箱执行：代码在隔离的沙箱环境中执行，生成处理后的图像或提取的数值\n4. 结果观察：模型"看到"执行结果\n5. 继续推理：基于新的视觉信息，模型生成下一步代码或得出初步结论\n6. 迭代循环：重复步骤2-5，直到问题解决\n\n这种"思维-操作-观察-再思维"的循环，模拟了人类科学家在显微镜前或实验室中的真实工作方式。\n\n应用场景：图像思维大放异彩\n\n图像思维模式在以下场景中展现出独特优势：\n\n高分辨率科学图表解读\n\n现代科学论文中的图表往往包含海量信息。一张基因组学数据的热图可能有数千个数据点，一张天体物理学的光谱图可能跨越多个数量级的动态范围。\n\n传统多模态模型通常将图像统一缩放到固定分辨率（如224x224或336x336），这种压缩会丢失关键细节。S1-VL的图像思维模式则可以：\n\n- 先生成代码将图表分块，逐个区域详细检查\n- 对感兴趣区域进行局部放大，观察细节特征\n- 提取具体数值，进行定量分析\n- 对比不同区域的模式，发现异常或规律\n\n显微图像理解\n\n显微镜下的世界充满了精细结构：细胞器的形态、蛋白质的定位、组织的纹理。理解这些图像需要：\n\n- 调整对比度和亮度，突出特定结构\n- 应用边缘检测或形态学操作，分离感兴趣区域\n- 测量几何参数（大小、形状、分布）\n- 与标准图谱进行对比识别\n\nS1-VL可以自主执行这些操作，就像一位经验丰富的显微镜操作员。\n\n几何辅助推理\n\n几何问题天然需要视觉推理。证明一个几何定理往往需要：\n\n- 在图中添加辅助线\n- 测量角度和长度\n- 验证全等或相似关系\n- 通过构造来验证猜想\n\n图像思维让S1-VL能够"动手"解决这些问题，而不是仅仅依赖预训练的几何知识。\n\n六维质量过滤框架\n\n训练S1-VL的一个关键挑战是数据质量。科学多模态数据极其多样，从数学公式到生物标本，从天文图像到化学结构。如何确保训练数据的质量？\n\n研究团队开发了一个六维质量过滤框架，从以下六个维度评估每个样本：\n\n维度一：视觉信息增益\n\n评估图像操作是否真正带来了新的视觉信息。如果模型执行了一系列操作但结果与原图几乎相同，这个样本的视觉信息增益就很低。\n\n维度二：推理连贯性\n\n检查推理步骤之间的逻辑关系是否合理。每一步都应该基于前一步的结果，并导向最终答案。\n\n维度三：代码正确性\n\n验证生成的图像处理代码是否能够正确执行，是否会产生预期的输出。\n\n维度四：科学准确性\n\n确保推理内容和结论符合科学事实。这对于科学领域模型尤为重要。\n\n维度五：多模态对齐\n\n检查文本推理与图像内容是否一致。模型不应该" hallucinate "图像中不存在的特征。\n\n维度六：教育价值\n\n评估样本是否展示了有价值的推理模式，是否有助于模型学习通用的科学推理策略。\n\n自适应数据路由策略\n\n基于六维评估，研究团队进一步提出了自适应数据路由策略。核心洞察是：并非所有样本都适合图像思维模式。\n\n对于视觉信息增益低的样本（例如，图像只是装饰性的，问题可以通过纯文本推理解决），系统会将其转换为纯科学推理模式的数据。这样，模型可以学会"判断"何时需要图像操作，何时可以直接文本推理。\n\n这种自适应路由带来了两个好处：\n\n1. 效率提升：避免在不必要的情况下执行昂贵的图像操作\n2. 能力分化：让模型明确区分两种推理范式，避免混淆\n\n四阶段渐进训练流程\n\nS1-VL的训练是一个精心设计的四阶段流程：\n\n阶段一：科学多模态监督微调（SFT）\n\n首先，在广泛的科学多模态数据上进行基础训练。数据来源涵盖六个学科：\n- 数学：几何、代数、微积分问题\n- 物理：力学、电磁学、光学问题\n- 化学：分子结构、反应机理、实验分析\n- 天文学：星图识别、光谱分析、天体测量\n- 地理学：地图解读、地质剖面、气象图表\n- 生物学：细胞图像、解剖图谱、生态数据\n\n这一阶段的目标是建立基础的多模态理解能力。\n\n阶段二：图像思维冷启动SFT\n\n在基础能力之上，专门训练图像思维模式。模型学习：\n- 何时触发图像思维（vs. 纯文本推理）\n- 如何编写有效的图像处理代码\n- 如何解释代码执行结果\n- 如何规划多轮图像操作序列\n\n阶段三：基于SAPO的强化学习（第一轮）\n\nSAPO（Self-Adaptive Policy Optimization）是一种针对推理任务的强化学习方法。在这一阶段，模型通过试错学习改进其推理策略。奖励信号基于：\n- 最终答案的正确性\n- 推理过程的效率（步骤数、代码执行次数）\n- 中间结果的质量\n\n阶段四：基于SAPO的强化学习（第二轮）\n\n进一步的强化学习，使用更复杂的样本和更严格的评估标准。这一阶段旨在提炼和巩固已学习的能力，提高模型的鲁棒性和泛化性。\n\n基准测试与性能表现\n\nS1-VL-32B（基于Qwen3-VL-32B-Thinking构建）在13个基准测试上进行了评估，结果令人印象深刻：\n\n图像思维基准\n\n在五个专门的图像思维基准上，S1-VL-32B达到了最先进的性能：\n\n- HRBench-4K/8K：高分辨率图像理解基准\n- MME-RealWorld-CN/Lite：真实世界多模态评估\n- V*：视觉推理基准\n\n这些基准测试了模型处理高分辨率图像、执行复杂视觉推理、以及与现实世界图像交互的能力。S1-VL的全面领先证明了图像思维范式的有效性。\n\n科学推理基准\n\n在科学推理基准（如Physics、VRSBench）上，S1-VL也超越了对比系统。这表明两种范式的结合产生了协同效应——图像思维不仅没有削弱纯文本推理能力，反而通过视觉验证增强了整体表现。\n\n技术实现细节\n\n基础模型选择\n\nS1-VL-32B基于Qwen3-VL-32B-Thinking构建。选择这一基础的原因包括：\n- 强大的视觉理解能力\n- 优秀的文本推理基础\n- 支持长上下文（对于多轮图像思维至关重要）\n- 开放的权重和良好的可扩展性\n\n沙箱环境设计\n\n图像思维的代码执行需要安全隔离的沙箱环境。关键设计考虑：\n\n- 安全性：限制可执行的Python操作，防止恶意代码\n- 效率：快速启动和销毁沙箱，支持高吞吐训练\n- 功能丰富：预装常用的图像处理库（PIL, OpenCV, NumPy, Matplotlib等）\n- 资源限制：控制CPU/内存使用，防止资源耗尽\n\n多轮交互协议\n\n模型与沙箱之间的交互需要明确的协议：\n\n1. 模型生成包含代码的特殊token序列\n2. 系统提取代码并送入沙箱执行\n3. 沙箱返回执行结果（输出图像或数值）\n4. 结果被编码并插入到模型的上下文\n5. 模型基于更新后的上下文继续生成\n\n这种协议需要在训练数据中明确标注，让模型学会正确的交互模式。\n\n局限与未来方向\n\n当前局限\n\n- 计算成本：图像思维模式需要多次代码执行，推理成本高于纯文本模型\n- 沙箱依赖：需要维护复杂的沙箱基础设施\n- 错误累积：多轮交互中，早期的错误可能影响后续推理\n\n未来方向\n\n- 更智能的路由：开发更精细的启发式方法，更准确地判断何时需要图像思维\n- 工具扩展：除了图像处理，整合更多科学工具（如符号计算、数据分析库）\n- 实时交互：支持用户介入，与模型协作完成复杂的科学推理\n- 领域特化：针对特定科学领域（如医学影像、材料科学）开发专门版本\n\n更广泛的影响：AI for Science的新范式\n\nS1-VL代表了"AI for Science"的一个重要发展方向：从被动的信息处理，到主动的实验操作。传统AI系统只能"读"科学文献，而S1-VL展示了AI也能"做"科学实验——至少在数字领域。\n\n这种"数字实验员"的能力有着深远意义：\n\n- 加速科学发现：自动执行常规的数据分析任务，让科学家专注于创新\n- 降低门槛：使非专家也能进行复杂的科学图像分析\n- 教育革新：作为交互式学习工具，展示科学推理的完整过程\n- 可重复性：自动记录所有操作步骤，提高科学研究的可重复性\n\n结语：当AI学会"动手"思考\n\nS1-VL的"图像思维"能力，本质上是一种"具身认知"——AI不再是被动的信息处理器，而是能够通过操作环境（这里是数字图像）来辅助思考的智能体。这与人类认知科学中的"延展心智"理论相呼应：思维不仅发生在头脑（或神经网络）中，也发生在与环境的交互中。\n\n从更广阔的视角看，S1-VL是向"通用科学智能体"迈进的重要一步。未来的AI科学家可能不仅能读论文、写代码，还能操作显微镜、调整实验参数、分析观测数据——成为人类科学家的真正合作伙伴。\n\n科学的未来，或许是人类与AI共同"看图思考"的未来。

S1-VL：具备"图像思维"能力的科学多模态推理模型

导读 / 主楼：S1-VL：具备"图像思维"能力的科学多模态推理模型

背景

补充观点 1

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统

LLM-assisted-analysis：用大模型检测智能合约逻辑漏洞的新思路

从零构建现代LLM：一个教学级的Llama风格语言模型实现