正文

VisualPromptCodec：让图像成为多模态模型的"视觉提示"

VisualPromptCodec 通过优化 RGB 图像，使冻结的多模态 Gemma 模型像接收到文本提示一样响应，开创了视觉提示的新范式。

多模态模型Gemma视觉提示图像优化跨模态对齐提示工程AI安全

发布时间 2026/05/20 12:40最近活动 2026/05/21 12:54预计阅读 10 分钟

章节 01

导读 / 主楼：VisualPromptCodec：让图像成为多模态模型的"视觉提示"

VisualPromptCodec 通过优化 RGB 图像，使冻结的多模态 Gemma 模型像接收到文本提示一样响应，开创了视觉提示的新范式。

章节 02

背景

VisualPromptCodec：让图像成为多模态模型的"视觉提示"\n\n## 核心概念：图像即提示\n\nVisualPromptCodec 提出了一种全新的多模态交互范式：与其将文本提示输入模型，不如优化一张普通 RGB 图像，让冻结的多模态模型（如 Gemma）像接收到文本提示一样产生响应。\n\n这种"视觉提示"的核心思想是：图像本身可以被优化成一种"形状"，这种形状在模型内部的处理流程中，会产生与特定文本提示相同的行为模式。\n\n## 工作原理：从文本目标到视觉优化\n\n### 优化流程\n\n整个过程可以概括为以下步骤：\n\n1. 起始：选择一张种子图像（如迪拜塔的照片）\n2. 训练：将图像转换为可训练的张量\n3. 前向传播：通过冻结的 Gemma 视觉路径处理\n4. 对比：将视觉行为与文本提示的目标行为进行对比\n5. 损失计算：计算多维度损失\n6. 反向传播：仅更新 RGB 图像，保持模型权重冻结\n7. 迭代：重复直到收敛\n\n### 损失函数设计\n\nVisualPromptCodec 使用复合损失函数来确保视觉路径与文本路径的行为对齐：\n\n`\ntotal_loss = hidden_state_alignment\n + next_token_logit_matching\n + target_answer_cross_entropy\n + RGB_smoothness_regularization\n`\n\n各组件的作用：\n\n- 隐藏状态对齐：使视觉路径的内部表示与文本路径相似\n- Logit 匹配：使下一个 token 的分布与文本提示的分布一致\n- 目标答案交叉熵：使优化后的图像更可能产生相同的答案 token\n- 正则化：保持图像接近种子，抑制极端噪声\n\n## 实际效果演示\n\n以一个具体例子说明效果：\n\n目标提示："用一句话向穴居人解释 AI"\n\n种子图像：迪拜塔的照片\n\n优化前：Gemma 对迪拜塔图像的响应是关于建筑或城市的描述\n\n优化后：Gemma 对优化图像的响应是："AI 就像一个穴居人学习使用锋利的石头，通过观察和模仿他人。"\n\n这与直接输入文本提示得到的结果几乎一致。\n\n## 对比实验\n\n项目设计了四组对照实验来验证效果：\n\n| 条件 | Gemma 接收内容 | 观察输出 |\n|------|---------------|---------|\n| text_prompt | 真实文本提示 | "AI 就像一个穴居人学习使用锋利的石头..." |\n| optimized_visual_prompt | 优化图像 + "Respond:" | "AI 就像一个穴居人学习使用锋利的石头..." |\n| rendered_text_image | 写有提示文字的图像 + "Respond:" | "AI 就像一个穴居人，它是一个强大的工具..." |\n| random_image | 随机视觉输入 + "Respond:" | 纹理/噪声描述 |\n\n关键发现：优化后的视觉提示（optimized_visual_prompt）与文本提示（text_prompt）的输出高度一致，而随机图像则完全不同。\n\n## 技术架构\n\nVisualPromptCodec 在 Gemma 的标准视觉处理流程中插入了一个可训练的 RGB 图像：\n\n`\n可训练 RGB 图像 [1, 3, 448, 448]\n ↓\nGemma 图像处理器\n ↓\npixel_values [1, 2520, 768]\n ↓\n视觉塔（Vision Tower）\n ↓\n视觉-语言投影层\n ↓\n语言模型\n ↓\n生成响应\n`\n\n值得注意的是，Gemma 的内部权重完全冻结，只有输入的 RGB 图像被优化。这意味着：\n\n- 不需要微调模型\n- 不消耗大量计算资源训练模型参数\n- 可以针对不同的文本提示生成不同的"视觉提示图像"\n\n## 应用场景与意义\n\n### 潜在应用\n\n1. 隐式提示注入：在无法直接输入文本的场景下，通过图像传递指令\n2. 多模态对齐研究：探索视觉和文本表示之间的对应关系\n3. 对抗性安全研究：理解多模态模型的行为边界\n4. 创意表达：探索"图像作为语言"的新形式\n\n### 研究价值\n\nVisualPromptCodec 揭示了一个重要洞察：多模态模型的视觉路径和文本路径在内部表示层面存在可优化的对应关系。这种"跨模态对齐"能力为理解多模态 AI 的工作原理提供了新的视角。\n\n## 使用方法\n\n项目提供了完整的实现和教程：\n\n`bash\n# 运行优化\npython scripts/optimize_visual_prompt_rgb.py \\\n --prompt "explain AI as a caveman in one sentence" \\\n --init-image images/burj.png \\\n --steps 100 \\\n --lr 0.01 \\\n --layers 16,20,24 \\\n --logit-kl-weight 0.5 \\\n --target-ce-weight 5.0\n\n# 评估结果\npython scripts/evaluate_visual_prompt.py \\\n --run-dir outputs/visual_prompt_runs_burj_seed/20260520_130422 \\\n --max-new-tokens 256\n`\n\n同时还提供了教学导向的 Jupyter Notebook，详细展示张量维度、中间图像、损失曲线等。\n\n## 局限与未来方向\n\n当前实现仅支持 RGB 图像优化，未来可能扩展至：\n\n- 视频输入的优化\n- 更复杂的多模态场景\n- 与其他多模态模型的兼容性\n- 视觉提示的标准化和可解释性研究\n\n## 结语\n\nVisualPromptCodec 开创性地展示了"图像即提示"的可能性，为多模态 AI 的交互方式提供了新的思路。它不仅是技术工具，更是探索视觉与语言之间深层联系的实验平台。

章节 03

补充观点 1

VisualPromptCodec：让图像成为多模态模型的"视觉提示"\n\n核心概念：图像即提示\n\nVisualPromptCodec 提出了一种全新的多模态交互范式：与其将文本提示输入模型，不如优化一张普通 RGB 图像，让冻结的多模态模型（如 Gemma）像接收到文本提示一样产生响应。\n\n这种"视觉提示"的核心思想是：图像本身可以被优化成一种"形状"，这种形状在模型内部的处理流程中，会产生与特定文本提示相同的行为模式。\n\n工作原理：从文本目标到视觉优化\n\n优化流程\n\n整个过程可以概括为以下步骤：\n\n1. 起始：选择一张种子图像（如迪拜塔的照片）\n2. 训练：将图像转换为可训练的张量\n3. 前向传播：通过冻结的 Gemma 视觉路径处理\n4. 对比：将视觉行为与文本提示的目标行为进行对比\n5. 损失计算：计算多维度损失\n6. 反向传播：仅更新 RGB 图像，保持模型权重冻结\n7. 迭代：重复直到收敛\n\n损失函数设计\n\nVisualPromptCodec 使用复合损失函数来确保视觉路径与文本路径的行为对齐：\n\n\ntotal_loss = hidden_state_alignment\n + next_token_logit_matching\n + target_answer_cross_entropy\n + RGB_smoothness_regularization\n\n\n各组件的作用：\n\n- 隐藏状态对齐：使视觉路径的内部表示与文本路径相似\n- Logit 匹配：使下一个 token 的分布与文本提示的分布一致\n- 目标答案交叉熵：使优化后的图像更可能产生相同的答案 token\n- 正则化：保持图像接近种子，抑制极端噪声\n\n实际效果演示\n\n以一个具体例子说明效果：\n\n目标提示："用一句话向穴居人解释 AI"\n\n种子图像：迪拜塔的照片\n\n优化前：Gemma 对迪拜塔图像的响应是关于建筑或城市的描述\n\n优化后：Gemma 对优化图像的响应是："AI 就像一个穴居人学习使用锋利的石头，通过观察和模仿他人。"\n\n这与直接输入文本提示得到的结果几乎一致。\n\n对比实验\n\n项目设计了四组对照实验来验证效果：\n\n| 条件 | Gemma 接收内容 | 观察输出 |\n|------|---------------|---------|\n| text_prompt | 真实文本提示 | "AI 就像一个穴居人学习使用锋利的石头..." |\n| optimized_visual_prompt | 优化图像 + "Respond:" | "AI 就像一个穴居人学习使用锋利的石头..." |\n| rendered_text_image | 写有提示文字的图像 + "Respond:" | "AI 就像一个穴居人，它是一个强大的工具..." |\n| random_image | 随机视觉输入 + "Respond:" | 纹理/噪声描述 |\n\n关键发现：优化后的视觉提示（optimized_visual_prompt）与文本提示（text_prompt）的输出高度一致，而随机图像则完全不同。\n\n技术架构\n\nVisualPromptCodec 在 Gemma 的标准视觉处理流程中插入了一个可训练的 RGB 图像：\n\n\n可训练 RGB 图像 [1, 3, 448, 448]\n ↓\nGemma 图像处理器\n ↓\npixel_values [1, 2520, 768]\n ↓\n视觉塔（Vision Tower）\n ↓\n视觉-语言投影层\n ↓\n语言模型\n ↓\n生成响应\n\n\n值得注意的是，Gemma 的内部权重完全冻结，只有输入的 RGB 图像被优化。这意味着：\n\n- 不需要微调模型\n- 不消耗大量计算资源训练模型参数\n- 可以针对不同的文本提示生成不同的"视觉提示图像"\n\n应用场景与意义\n\n潜在应用\n\n1. 隐式提示注入：在无法直接输入文本的场景下，通过图像传递指令\n2. 多模态对齐研究：探索视觉和文本表示之间的对应关系\n3. 对抗性安全研究：理解多模态模型的行为边界\n4. 创意表达：探索"图像作为语言"的新形式\n\n研究价值\n\nVisualPromptCodec 揭示了一个重要洞察：多模态模型的视觉路径和文本路径在内部表示层面存在可优化的对应关系。这种"跨模态对齐"能力为理解多模态 AI 的工作原理提供了新的视角。\n\n使用方法\n\n项目提供了完整的实现和教程：\n\nbash\n运行优化\npython scripts/optimize_visual_prompt_rgb.py \\\n --prompt "explain AI as a caveman in one sentence" \\\n --init-image images/burj.png \\\n --steps 100 \\\n --lr 0.01 \\\n --layers 16,20,24 \\\n --logit-kl-weight 0.5 \\\n --target-ce-weight 5.0\n\n评估结果\npython scripts/evaluate_visual_prompt.py \\\n --run-dir outputs/visual_prompt_runs_burj_seed/20260520_130422 \\\n --max-new-tokens 256\n\n\n同时还提供了教学导向的 Jupyter Notebook，详细展示张量维度、中间图像、损失曲线等。\n\n局限与未来方向\n\n当前实现仅支持 RGB 图像优化，未来可能扩展至：\n\n- 视频输入的优化\n- 更复杂的多模态场景\n- 与其他多模态模型的兼容性\n- 视觉提示的标准化和可解释性研究\n\n结语\n\nVisualPromptCodec 开创性地展示了"图像即提示"的可能性，为多模态 AI 的交互方式提供了新的思路。它不仅是技术工具，更是探索视觉与语言之间深层联系的实验平台。

VisualPromptCodec：让图像成为多模态模型的"视觉提示"

导读 / 主楼：VisualPromptCodec：让图像成为多模态模型的"视觉提示"

背景

补充观点 1

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

libmlxforge：Apple Silicon 上的嵌入式 MLX LLM 推理引擎