Zing 论坛

正文

3D-CoS:基于视觉语言模型代码合成的3D重建新范式

3D-CoS提出将3D资产生成为可执行Blender代码的新范式,通过蓝图规划、RAG检索、少样本演示和部件级智能体工作流提升生成质量,在可编辑性和局部修改方面展现独特优势。

3D重建代码合成视觉语言模型Blender程序化建模可编辑性RAG3D内容生成
发布时间 2026/06/09 14:46最近活动 2026/06/10 11:57预计阅读 2 分钟
3D-CoS:基于视觉语言模型代码合成的3D重建新范式
1

章节 01

3D-CoS:基于VLM代码合成的3D重建新范式导读

核心观点 3D-CoS(3D Code Synthesis)提出将3D资产生成为可执行Blender代码的新范式,通过蓝图规划、RAG检索、少样本演示和部件级智能体工作流提升生成质量,在可编辑性和局部修改方面展现独特优势。 来源信息

  • 原作者:arXiv authors
  • 来源平台:arXiv
  • 原始标题:3D-CoS: A New 3D Reconstruction Paradigm Based on VLM Code Synthesis
  • 链接:http://arxiv.org/abs/2606.10478v1
  • 发布时间:2026-06-09
2

章节 02

传统3D表示的局限

当前主流3D重建与编辑系统依赖隐式(如NeRF)或显式(如点云、网格)表示,虽渲染保真度高,但存在根本性局限:

  • 网格:需直接操作顶点/面片,技术门槛高且缺乏语义解释性(如修改椅腿需定位对应顶点);
  • NeRF:修改需重新训练或复杂反渲染,难以精确局部调整;
  • 点云:缺乏拓扑信息,编辑易导致几何不连续。
3

章节 03

3D代码合成:可编程的3D表示

3D-CoS将3D资产表示为Blender可执行Python代码,带来三大优势:

  1. 可解释性:代码语义明确,人类可理解3D对象构建过程;
  2. 可编辑性:调整代码参数(如圆柱体高度)即可精确控制形状;
  3. 局部修改能力:直接修改对应部件代码(如椅腿长度),不影响其他部分,解决传统表示的痛点。
4

章节 04

结构化代码合成工作流

研究团队设计结构化工作流引导VLM生成代码:

  • 蓝图规划:先生成高层步骤序列(如椅子构建:座面→椅腿→靠背→组合);
  • RAG增强:生成时检索Blender API文档,提升代码正确性;
  • 少样本演示:提供复杂几何操作示例,帮助VLM映射几何概念到代码;
  • 部件级智能体:分而治之,各部件由专门智能体生成,主智能体协调装配关系。
5

章节 05

局部文本驱动编辑的优势(实验证据)

实验对比代码与点云编辑:

  • 点云编辑:需识别椅腿对应点集,易导致连接处裂缝或误伤相邻部件;
  • 代码编辑:直接修改椅腿代码参数,语义明确,精确且保持几何连续性; 结果显示:代码表示在编辑保真度和未编辑区域保留方面更优。
6

章节 06

VLM能力边界探索

评估VLMs(开源如LLaVA/Qwen-VL、闭源如GPT-4V/Claude)能力边界:

  • 局限:3D空间关系理解不足、复杂拓扑处理困难、Blender API掌握不全面;
  • 增强策略效果:RAG提升API任务正确率,少样本示例助力几何学习,蓝图规划优化生成结构合理性。
7

章节 07

应用前景与未来研究方向

应用前景

  • 内容创作:自然语言生成原型+代码精修;
  • 工业设计:参数化产品定义,便于版本控制;
  • 教育:可解释的3D建模学习材料。 未来方向
  • 扩展到Maya/3ds Max等平台;
  • 支持曲面建模、物理仿真等复杂操作;
  • 优化VLM架构适配3D代码生成;
  • 融合代码表示与NeRF、高斯泼溅等其他3D表示。