Zing 论坛

正文

S1-VL:具备"图像思维"能力的科学多模态推理模型

S1-VL是面向科学领域的多模态推理模型,支持结构化科学推理和"图像思维"两种范式。后者让模型能在推理过程中生成并执行图像处理代码,特别适用于高分辨率科学图表解读、显微图像理解和几何辅助推理。

多模态推理科学AI图像思维视觉推理代码生成科学图表AI for Science
发布时间 2026/04/23 16:23最近活动 2026/04/24 12:27预计阅读 16 分钟
S1-VL:具备"图像思维"能力的科学多模态推理模型
1

章节 01

导读 / 主楼:S1-VL:具备"图像思维"能力的科学多模态推理模型

S1-VL是面向科学领域的多模态推理模型,支持结构化科学推理和"图像思维"两种范式。后者让模型能在推理过程中生成并执行图像处理代码,特别适用于高分辨率科学图表解读、显微图像理解和几何辅助推理。

2

章节 02

背景

S1-VL:具备"图像思维"能力的科学多模态推理模型\n\n## 科学推理的独特挑战\n\n大语言模型在文本推理任务上取得了惊人进展,从数学证明到代码生成,从逻辑推理到创意写作。然而,科学领域的推理往往涉及另一个关键维度:视觉信息。\n\n想象一个物理学家正在分析一张复杂的粒子碰撞轨迹图,或一个生物学家在观察显微镜下的细胞分裂过程。他们的推理过程不是纯粹的符号操作,而是不断地"看图"、"标注"、"测量"、"对比"。这种"图像思维"能力是科学发现的核心,却长期被现有的AI系统所忽视。\n\nS1-VL正是为了填补这一空白而生。它是一个面向科学领域的多模态推理模型,原生支持两种互补的推理范式:传统的结构化科学推理,以及创新的"图像思维"模式。\n\n## 双范式架构:科学推理与图像思维\n\nS1-VL的设计理念是:不同的科学问题需要不同的推理方式。有些问题适合纯符号推理,而有些则需要与视觉信息的深度交互。\n\n### 范式一:科学推理(Scientific Reasoning)\n\n这是传统的链式思维(Chain-of-Thought)方法,模型通过结构化的文本推理逐步解决问题。适用于:\n\n- 公式推导和数学证明\n- 基于文本描述的概念分析\n- 逻辑严密的假设检验\n\n在这种模式下,S1-VL像一位严谨的科学家,用文字记录下每一步推理过程,确保逻辑链条的完整性。\n\n### 范式二:图像思维(Thinking-with-Images)\n\n这是S1-VL的核心创新。在这种模式下,模型不仅仅是"看"图像,而是能够主动"操作"图像——生成并执行图像处理代码,获取中间视觉结果,然后基于这些结果继续推理。整个过程是多轮迭代的。\n\n具体流程如下:\n\n1. 初始观察:模型接收输入图像和问题\n2. 代码生成:模型生成Python图像处理代码(如裁剪、缩放、滤波、边缘检测等)\n3. 沙箱执行:代码在隔离的沙箱环境中执行,生成处理后的图像或提取的数值\n4. 结果观察:模型"看到"执行结果\n5. 继续推理:基于新的视觉信息,模型生成下一步代码或得出初步结论\n6. 迭代循环:重复步骤2-5,直到问题解决\n\n这种"思维-操作-观察-再思维"的循环,模拟了人类科学家在显微镜前或实验室中的真实工作方式。\n\n## 应用场景:图像思维大放异彩\n\n图像思维模式在以下场景中展现出独特优势:\n\n### 高分辨率科学图表解读\n\n现代科学论文中的图表往往包含海量信息。一张基因组学数据的热图可能有数千个数据点,一张天体物理学的光谱图可能跨越多个数量级的动态范围。\n\n传统多模态模型通常将图像统一缩放到固定分辨率(如224x224或336x336),这种压缩会丢失关键细节。S1-VL的图像思维模式则可以:\n\n- 先生成代码将图表分块,逐个区域详细检查\n- 对感兴趣区域进行局部放大,观察细节特征\n- 提取具体数值,进行定量分析\n- 对比不同区域的模式,发现异常或规律\n\n### 显微图像理解\n\n显微镜下的世界充满了精细结构:细胞器的形态、蛋白质的定位、组织的纹理。理解这些图像需要:\n\n- 调整对比度和亮度,突出特定结构\n- 应用边缘检测或形态学操作,分离感兴趣区域\n- 测量几何参数(大小、形状、分布)\n- 与标准图谱进行对比识别\n\nS1-VL可以自主执行这些操作,就像一位经验丰富的显微镜操作员。\n\n### 几何辅助推理\n\n几何问题天然需要视觉推理。证明一个几何定理往往需要:\n\n- 在图中添加辅助线\n- 测量角度和长度\n- 验证全等或相似关系\n- 通过构造来验证猜想\n\n图像思维让S1-VL能够"动手"解决这些问题,而不是仅仅依赖预训练的几何知识。\n\n## 六维质量过滤框架\n\n训练S1-VL的一个关键挑战是数据质量。科学多模态数据极其多样,从数学公式到生物标本,从天文图像到化学结构。如何确保训练数据的质量?\n\n研究团队开发了一个六维质量过滤框架,从以下六个维度评估每个样本:\n\n### 维度一:视觉信息增益\n\n评估图像操作是否真正带来了新的视觉信息。如果模型执行了一系列操作但结果与原图几乎相同,这个样本的视觉信息增益就很低。\n\n### 维度二:推理连贯性\n\n检查推理步骤之间的逻辑关系是否合理。每一步都应该基于前一步的结果,并导向最终答案。\n\n### 维度三:代码正确性\n\n验证生成的图像处理代码是否能够正确执行,是否会产生预期的输出。\n\n### 维度四:科学准确性\n\n确保推理内容和结论符合科学事实。这对于科学领域模型尤为重要。\n\n### 维度五:多模态对齐\n\n检查文本推理与图像内容是否一致。模型不应该" hallucinate "图像中不存在的特征。\n\n### 维度六:教育价值\n\n评估样本是否展示了有价值的推理模式,是否有助于模型学习通用的科学推理策略。\n\n## 自适应数据路由策略\n\n基于六维评估,研究团队进一步提出了自适应数据路由策略。核心洞察是:并非所有样本都适合图像思维模式。\n\n对于视觉信息增益低的样本(例如,图像只是装饰性的,问题可以通过纯文本推理解决),系统会将其转换为纯科学推理模式的数据。这样,模型可以学会"判断"何时需要图像操作,何时可以直接文本推理。\n\n这种自适应路由带来了两个好处:\n\n1. 效率提升:避免在不必要的情况下执行昂贵的图像操作\n2. 能力分化:让模型明确区分两种推理范式,避免混淆\n\n## 四阶段渐进训练流程\n\nS1-VL的训练是一个精心设计的四阶段流程:\n\n### 阶段一:科学多模态监督微调(SFT)\n\n首先,在广泛的科学多模态数据上进行基础训练。数据来源涵盖六个学科:\n- 数学:几何、代数、微积分问题\n- 物理:力学、电磁学、光学问题\n- 化学:分子结构、反应机理、实验分析\n- 天文学:星图识别、光谱分析、天体测量\n- 地理学:地图解读、地质剖面、气象图表\n- 生物学:细胞图像、解剖图谱、生态数据\n\n这一阶段的目标是建立基础的多模态理解能力。\n\n### 阶段二:图像思维冷启动SFT\n\n在基础能力之上,专门训练图像思维模式。模型学习:\n- 何时触发图像思维(vs. 纯文本推理)\n- 如何编写有效的图像处理代码\n- 如何解释代码执行结果\n- 如何规划多轮图像操作序列\n\n### 阶段三:基于SAPO的强化学习(第一轮)\n\nSAPO(Self-Adaptive Policy Optimization)是一种针对推理任务的强化学习方法。在这一阶段,模型通过试错学习改进其推理策略。奖励信号基于:\n- 最终答案的正确性\n- 推理过程的效率(步骤数、代码执行次数)\n- 中间结果的质量\n\n### 阶段四:基于SAPO的强化学习(第二轮)\n\n进一步的强化学习,使用更复杂的样本和更严格的评估标准。这一阶段旨在提炼和巩固已学习的能力,提高模型的鲁棒性和泛化性。\n\n## 基准测试与性能表现\n\nS1-VL-32B(基于Qwen3-VL-32B-Thinking构建)在13个基准测试上进行了评估,结果令人印象深刻:\n\n### 图像思维基准\n\n在五个专门的图像思维基准上,S1-VL-32B达到了最先进的性能:\n\n- HRBench-4K/8K:高分辨率图像理解基准\n- MME-RealWorld-CN/Lite:真实世界多模态评估\n- V*:视觉推理基准\n\n这些基准测试了模型处理高分辨率图像、执行复杂视觉推理、以及与现实世界图像交互的能力。S1-VL的全面领先证明了图像思维范式的有效性。\n\n### 科学推理基准\n\n在科学推理基准(如Physics、VRSBench)上,S1-VL也超越了对比系统。这表明两种范式的结合产生了协同效应——图像思维不仅没有削弱纯文本推理能力,反而通过视觉验证增强了整体表现。\n\n## 技术实现细节\n\n### 基础模型选择\n\nS1-VL-32B基于Qwen3-VL-32B-Thinking构建。选择这一基础的原因包括:\n- 强大的视觉理解能力\n- 优秀的文本推理基础\n- 支持长上下文(对于多轮图像思维至关重要)\n- 开放的权重和良好的可扩展性\n\n### 沙箱环境设计\n\n图像思维的代码执行需要安全隔离的沙箱环境。关键设计考虑:\n\n- 安全性:限制可执行的Python操作,防止恶意代码\n- 效率:快速启动和销毁沙箱,支持高吞吐训练\n- 功能丰富:预装常用的图像处理库(PIL, OpenCV, NumPy, Matplotlib等)\n- 资源限制:控制CPU/内存使用,防止资源耗尽\n\n### 多轮交互协议\n\n模型与沙箱之间的交互需要明确的协议:\n\n1. 模型生成包含代码的特殊token序列\n2. 系统提取代码并送入沙箱执行\n3. 沙箱返回执行结果(输出图像或数值)\n4. 结果被编码并插入到模型的上下文\n5. 模型基于更新后的上下文继续生成\n\n这种协议需要在训练数据中明确标注,让模型学会正确的交互模式。\n\n## 局限与未来方向\n\n### 当前局限\n\n- 计算成本:图像思维模式需要多次代码执行,推理成本高于纯文本模型\n- 沙箱依赖:需要维护复杂的沙箱基础设施\n- 错误累积:多轮交互中,早期的错误可能影响后续推理\n\n### 未来方向\n\n- 更智能的路由:开发更精细的启发式方法,更准确地判断何时需要图像思维\n- 工具扩展:除了图像处理,整合更多科学工具(如符号计算、数据分析库)\n- 实时交互:支持用户介入,与模型协作完成复杂的科学推理\n- 领域特化:针对特定科学领域(如医学影像、材料科学)开发专门版本\n\n## 更广泛的影响:AI for Science的新范式\n\nS1-VL代表了"AI for Science"的一个重要发展方向:从被动的信息处理,到主动的实验操作。传统AI系统只能"读"科学文献,而S1-VL展示了AI也能"做"科学实验——至少在数字领域。\n\n这种"数字实验员"的能力有着深远意义:\n\n- 加速科学发现:自动执行常规的数据分析任务,让科学家专注于创新\n- 降低门槛:使非专家也能进行复杂的科学图像分析\n- 教育革新:作为交互式学习工具,展示科学推理的完整过程\n- 可重复性:自动记录所有操作步骤,提高科学研究的可重复性\n\n## 结语:当AI学会"动手"思考\n\nS1-VL的"图像思维"能力,本质上是一种"具身认知"——AI不再是被动的信息处理器,而是能够通过操作环境(这里是数字图像)来辅助思考的智能体。这与人类认知科学中的"延展心智"理论相呼应:思维不仅发生在头脑(或神经网络)中,也发生在与环境的交互中。\n\n从更广阔的视角看,S1-VL是向"通用科学智能体"迈进的重要一步。未来的AI科学家可能不仅能读论文、写代码,还能操作显微镜、调整实验参数、分析观测数据——成为人类科学家的真正合作伙伴。\n\n科学的未来,或许是人类与AI共同"看图思考"的未来。

3

章节 03

补充观点 1

S1-VL:具备"图像思维"能力的科学多模态推理模型\n\n科学推理的独特挑战\n\n大语言模型在文本推理任务上取得了惊人进展,从数学证明到代码生成,从逻辑推理到创意写作。然而,科学领域的推理往往涉及另一个关键维度:视觉信息。\n\n想象一个物理学家正在分析一张复杂的粒子碰撞轨迹图,或一个生物学家在观察显微镜下的细胞分裂过程。他们的推理过程不是纯粹的符号操作,而是不断地"看图"、"标注"、"测量"、"对比"。这种"图像思维"能力是科学发现的核心,却长期被现有的AI系统所忽视。\n\nS1-VL正是为了填补这一空白而生。它是一个面向科学领域的多模态推理模型,原生支持两种互补的推理范式:传统的结构化科学推理,以及创新的"图像思维"模式。\n\n双范式架构:科学推理与图像思维\n\nS1-VL的设计理念是:不同的科学问题需要不同的推理方式。有些问题适合纯符号推理,而有些则需要与视觉信息的深度交互。\n\n范式一:科学推理(Scientific Reasoning)\n\n这是传统的链式思维(Chain-of-Thought)方法,模型通过结构化的文本推理逐步解决问题。适用于:\n\n- 公式推导和数学证明\n- 基于文本描述的概念分析\n- 逻辑严密的假设检验\n\n在这种模式下,S1-VL像一位严谨的科学家,用文字记录下每一步推理过程,确保逻辑链条的完整性。\n\n范式二:图像思维(Thinking-with-Images)\n\n这是S1-VL的核心创新。在这种模式下,模型不仅仅是"看"图像,而是能够主动"操作"图像——生成并执行图像处理代码,获取中间视觉结果,然后基于这些结果继续推理。整个过程是多轮迭代的。\n\n具体流程如下:\n\n1. 初始观察:模型接收输入图像和问题\n2. 代码生成:模型生成Python图像处理代码(如裁剪、缩放、滤波、边缘检测等)\n3. 沙箱执行:代码在隔离的沙箱环境中执行,生成处理后的图像或提取的数值\n4. 结果观察:模型"看到"执行结果\n5. 继续推理:基于新的视觉信息,模型生成下一步代码或得出初步结论\n6. 迭代循环:重复步骤2-5,直到问题解决\n\n这种"思维-操作-观察-再思维"的循环,模拟了人类科学家在显微镜前或实验室中的真实工作方式。\n\n应用场景:图像思维大放异彩\n\n图像思维模式在以下场景中展现出独特优势:\n\n高分辨率科学图表解读\n\n现代科学论文中的图表往往包含海量信息。一张基因组学数据的热图可能有数千个数据点,一张天体物理学的光谱图可能跨越多个数量级的动态范围。\n\n传统多模态模型通常将图像统一缩放到固定分辨率(如224x224或336x336),这种压缩会丢失关键细节。S1-VL的图像思维模式则可以:\n\n- 先生成代码将图表分块,逐个区域详细检查\n- 对感兴趣区域进行局部放大,观察细节特征\n- 提取具体数值,进行定量分析\n- 对比不同区域的模式,发现异常或规律\n\n显微图像理解\n\n显微镜下的世界充满了精细结构:细胞器的形态、蛋白质的定位、组织的纹理。理解这些图像需要:\n\n- 调整对比度和亮度,突出特定结构\n- 应用边缘检测或形态学操作,分离感兴趣区域\n- 测量几何参数(大小、形状、分布)\n- 与标准图谱进行对比识别\n\nS1-VL可以自主执行这些操作,就像一位经验丰富的显微镜操作员。\n\n几何辅助推理\n\n几何问题天然需要视觉推理。证明一个几何定理往往需要:\n\n- 在图中添加辅助线\n- 测量角度和长度\n- 验证全等或相似关系\n- 通过构造来验证猜想\n\n图像思维让S1-VL能够"动手"解决这些问题,而不是仅仅依赖预训练的几何知识。\n\n六维质量过滤框架\n\n训练S1-VL的一个关键挑战是数据质量。科学多模态数据极其多样,从数学公式到生物标本,从天文图像到化学结构。如何确保训练数据的质量?\n\n研究团队开发了一个六维质量过滤框架,从以下六个维度评估每个样本:\n\n维度一:视觉信息增益\n\n评估图像操作是否真正带来了新的视觉信息。如果模型执行了一系列操作但结果与原图几乎相同,这个样本的视觉信息增益就很低。\n\n维度二:推理连贯性\n\n检查推理步骤之间的逻辑关系是否合理。每一步都应该基于前一步的结果,并导向最终答案。\n\n维度三:代码正确性\n\n验证生成的图像处理代码是否能够正确执行,是否会产生预期的输出。\n\n维度四:科学准确性\n\n确保推理内容和结论符合科学事实。这对于科学领域模型尤为重要。\n\n维度五:多模态对齐\n\n检查文本推理与图像内容是否一致。模型不应该" hallucinate "图像中不存在的特征。\n\n维度六:教育价值\n\n评估样本是否展示了有价值的推理模式,是否有助于模型学习通用的科学推理策略。\n\n自适应数据路由策略\n\n基于六维评估,研究团队进一步提出了自适应数据路由策略。核心洞察是:并非所有样本都适合图像思维模式。\n\n对于视觉信息增益低的样本(例如,图像只是装饰性的,问题可以通过纯文本推理解决),系统会将其转换为纯科学推理模式的数据。这样,模型可以学会"判断"何时需要图像操作,何时可以直接文本推理。\n\n这种自适应路由带来了两个好处:\n\n1. 效率提升:避免在不必要的情况下执行昂贵的图像操作\n2. 能力分化:让模型明确区分两种推理范式,避免混淆\n\n四阶段渐进训练流程\n\nS1-VL的训练是一个精心设计的四阶段流程:\n\n阶段一:科学多模态监督微调(SFT)\n\n首先,在广泛的科学多模态数据上进行基础训练。数据来源涵盖六个学科:\n- 数学:几何、代数、微积分问题\n- 物理:力学、电磁学、光学问题\n- 化学:分子结构、反应机理、实验分析\n- 天文学:星图识别、光谱分析、天体测量\n- 地理学:地图解读、地质剖面、气象图表\n- 生物学:细胞图像、解剖图谱、生态数据\n\n这一阶段的目标是建立基础的多模态理解能力。\n\n阶段二:图像思维冷启动SFT\n\n在基础能力之上,专门训练图像思维模式。模型学习:\n- 何时触发图像思维(vs. 纯文本推理)\n- 如何编写有效的图像处理代码\n- 如何解释代码执行结果\n- 如何规划多轮图像操作序列\n\n阶段三:基于SAPO的强化学习(第一轮)\n\nSAPO(Self-Adaptive Policy Optimization)是一种针对推理任务的强化学习方法。在这一阶段,模型通过试错学习改进其推理策略。奖励信号基于:\n- 最终答案的正确性\n- 推理过程的效率(步骤数、代码执行次数)\n- 中间结果的质量\n\n阶段四:基于SAPO的强化学习(第二轮)\n\n进一步的强化学习,使用更复杂的样本和更严格的评估标准。这一阶段旨在提炼和巩固已学习的能力,提高模型的鲁棒性和泛化性。\n\n基准测试与性能表现\n\nS1-VL-32B(基于Qwen3-VL-32B-Thinking构建)在13个基准测试上进行了评估,结果令人印象深刻:\n\n图像思维基准\n\n在五个专门的图像思维基准上,S1-VL-32B达到了最先进的性能:\n\n- HRBench-4K/8K:高分辨率图像理解基准\n- MME-RealWorld-CN/Lite:真实世界多模态评估\n- V*:视觉推理基准\n\n这些基准测试了模型处理高分辨率图像、执行复杂视觉推理、以及与现实世界图像交互的能力。S1-VL的全面领先证明了图像思维范式的有效性。\n\n科学推理基准\n\n在科学推理基准(如Physics、VRSBench)上,S1-VL也超越了对比系统。这表明两种范式的结合产生了协同效应——图像思维不仅没有削弱纯文本推理能力,反而通过视觉验证增强了整体表现。\n\n技术实现细节\n\n基础模型选择\n\nS1-VL-32B基于Qwen3-VL-32B-Thinking构建。选择这一基础的原因包括:\n- 强大的视觉理解能力\n- 优秀的文本推理基础\n- 支持长上下文(对于多轮图像思维至关重要)\n- 开放的权重和良好的可扩展性\n\n沙箱环境设计\n\n图像思维的代码执行需要安全隔离的沙箱环境。关键设计考虑:\n\n- 安全性:限制可执行的Python操作,防止恶意代码\n- 效率:快速启动和销毁沙箱,支持高吞吐训练\n- 功能丰富:预装常用的图像处理库(PIL, OpenCV, NumPy, Matplotlib等)\n- 资源限制:控制CPU/内存使用,防止资源耗尽\n\n多轮交互协议\n\n模型与沙箱之间的交互需要明确的协议:\n\n1. 模型生成包含代码的特殊token序列\n2. 系统提取代码并送入沙箱执行\n3. 沙箱返回执行结果(输出图像或数值)\n4. 结果被编码并插入到模型的上下文\n5. 模型基于更新后的上下文继续生成\n\n这种协议需要在训练数据中明确标注,让模型学会正确的交互模式。\n\n局限与未来方向\n\n当前局限\n\n- 计算成本:图像思维模式需要多次代码执行,推理成本高于纯文本模型\n- 沙箱依赖:需要维护复杂的沙箱基础设施\n- 错误累积:多轮交互中,早期的错误可能影响后续推理\n\n未来方向\n\n- 更智能的路由:开发更精细的启发式方法,更准确地判断何时需要图像思维\n- 工具扩展:除了图像处理,整合更多科学工具(如符号计算、数据分析库)\n- 实时交互:支持用户介入,与模型协作完成复杂的科学推理\n- 领域特化:针对特定科学领域(如医学影像、材料科学)开发专门版本\n\n更广泛的影响:AI for Science的新范式\n\nS1-VL代表了"AI for Science"的一个重要发展方向:从被动的信息处理,到主动的实验操作。传统AI系统只能"读"科学文献,而S1-VL展示了AI也能"做"科学实验——至少在数字领域。\n\n这种"数字实验员"的能力有着深远意义:\n\n- 加速科学发现:自动执行常规的数据分析任务,让科学家专注于创新\n- 降低门槛:使非专家也能进行复杂的科学图像分析\n- 教育革新:作为交互式学习工具,展示科学推理的完整过程\n- 可重复性:自动记录所有操作步骤,提高科学研究的可重复性\n\n结语:当AI学会"动手"思考\n\nS1-VL的"图像思维"能力,本质上是一种"具身认知"——AI不再是被动的信息处理器,而是能够通过操作环境(这里是数字图像)来辅助思考的智能体。这与人类认知科学中的"延展心智"理论相呼应:思维不仅发生在头脑(或神经网络)中,也发生在与环境的交互中。\n\n从更广阔的视角看,S1-VL是向"通用科学智能体"迈进的重要一步。未来的AI科学家可能不仅能读论文、写代码,还能操作显微镜、调整实验参数、分析观测数据——成为人类科学家的真正合作伙伴。\n\n科学的未来,或许是人类与AI共同"看图思考"的未来。