# 为纯文本AI模型赋予"视觉"：multimodal-skill 多模态技能解析

> 一个巧妙的桥接方案，让不支持多模态的纯文本大模型（如DeepSeek）也能理解图片、PDF、截图和图表内容，通过会话缓存实现多轮问答。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-08T16:45:10.000Z
- 最近活动: 2026-06-08T16:49:27.063Z
- 热度: 116.9
- 关键词: 多模态, 视觉识别, 纯文本模型, DeepSeek, AI技能, 图像理解, OCR, 会话缓存, 开源工具
- 页面链接: https://www.zingnex.cn/forum/thread/ai-multimodal-skill
- Canonical: https://www.zingnex.cn/forum/thread/ai-multimodal-skill
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：SlXiaMi
- 来源平台：github
- 原始标题：multimodal-skill
- 原始链接：https://github.com/SlXiaMi/multimodal-skill
- 来源发布时间/更新时间：2026-06-08T16:45:10Z

## 原作者与来源\n\n- **原作者/维护者**: SlXiaMi\n- **来源平台**: GitHub\n- **原始标题**: multimodal-skill\n- **原始链接**: https://github.com/SlXiaMi/multimodal-skill\n- **发布时间**: 2026年6月8日\n\n---\n\n## 背景：纯文本模型的"视力"困境\n\n随着大语言模型的快速发展，许多优秀的纯文本模型（如DeepSeek等）在语言理解和生成方面表现出色，但它们有一个共同的局限——无法直接"看见"图像内容。这意味着当用户想要分析一张照片、解读一张图表或提取PDF中的视觉信息时，这些模型只能"望图兴叹"。\n\n传统的解决方案通常需要：\n1. 更换为支持多模态的模型（成本更高、速度更慢）\n2. 使用外部OCR工具预处理（流程繁琐、上下文割裂）\n3. 手动描述图片内容（用户体验差）\n\nmultimodal-skill 项目提供了一个优雅的桥接方案，让纯文本模型也能"看懂"视觉内容。\n\n---\n\n## 项目概述：技能即"眼睛"\n\nmultimodal-skill 的设计理念非常简洁——它充当主模型的"眼睛"。当主模型需要处理视觉内容时，该技能会将图片发送给专门的识图模型，然后将识别结果以文字形式返回给主模型，从而让纯文本模型间接获得视觉理解能力。\n\n这种架构的优势在于：\n- **解耦设计**: 主模型和识图模型各司其职，可以独立选择最优方案\n- **成本可控**: 仅在需要时调用识图模型，避免全程使用昂贵的多模态大模型\n- **会话连贯**: 支持多轮问答和会话缓存，保持上下文连续性\n- **即插即用**: 简单的技能安装和配置流程\n\n---\n\n## 核心机制：三步实现视觉理解\n\n### 1. 安装部署\n\n项目采用简洁的Git克隆安装方式：\n```bash\ngit clone https://github.com/SlXiaMi/multimodal-skill.git ~/.claude/skills/multimodal-skill\n```\n\n### 2. 灵活配置\n\n通过JSON配置文件，用户可以自定义：\n- API地址和密钥\n- 选用的识图模型\n- 会话管理参数\n\n这种设计允许用户根据实际需求选择不同的视觉识别后端（如OpenAI GPT-4V、Google Gemini、本地视觉模型等）。\n\n### 3. 多轮会话支持\n\n项目的一大亮点是支持会话缓存和多轮问答。用户可以在一次会话中连续追问关于同一张图片的不同问题，系统会保持上下文连贯，避免重复上传图片带来的延迟和成本开销。\n\n---\n\n## 应用场景：从照片到文档的全面覆盖\n\nmultimodal-skill 适用于多种视觉理解场景：\n\n### 照片分析\n用户上传家庭照片，询问"这张照片讲了什么故事？"系统可以描述场景、人物活动、环境氛围等细节。进一步追问"参与者的年龄和着装？"时，能够基于同一会话继续分析。\n\n### 截图识别\n对于软件界面截图、错误提示截图等，可以快速提取关键信息并提供解决方案建议。\n\n### 文档查阅\n支持PDF文档的视觉内容提取，包括排版复杂的学术论文、技术手册等。\n\n### 图表解读\n能够分析数据图表、流程图、架构图等，提取关键数据点和逻辑关系。\n\n### OCR文字提取\n从图片中提取文字内容，支持多语言识别。\n\n---\n\n## 技术实现细节\n\n项目结构清晰，包含以下关键组件：\n\n- **multimodal.py**: 核心脚本，处理图像上传和API调用\n- **SKILL.md**: 技能定义文档，说明使用方式\n- **配置文件**: 支持多环境配置，便于开发和生产环境切换\n- **会话管理**: 自动化的会话ID生成和缓存清理机制\n\n命令行接口设计简洁直观：\n```bash\npython scripts/multimodal.py photo.jpg --ask \"描述场景和活动\" --session auto\n```\n\n`--session auto` 参数会自动生成会话ID，便于后续追问；`--ask` 参数支持自然语言提问，灵活度高。\n\n---\n\n## 实用价值与意义\n\nmultimodal-skill 的价值不仅在于技术实现本身，更在于它提供了一种务实的AI系统架构思路：\n\n1. **渐进式增强**: 不需要完全替换现有系统，通过"技能"形式为纯文本模型增添能力\n2. **成本优化**: 按需调用视觉模型，避免全程使用昂贵的多模态大模型\n3. **灵活组合**: 主模型和识图模型可以独立升级、替换，不受单一供应商锁定\n4. **开发友好**: 简单的安装配置流程，降低了技术门槛\n\n对于开发者而言，这种模式也提供了很好的参考——如何将单一能力的AI组件组合成更强大的系统。\n\n---\n\n## 总结与展望\n\nmultimodal-skill 展示了一种轻量级但实用的AI能力扩展方案。它证明了通过合理的架构设计，可以在不牺牲现有系统优势的前提下，为纯文本模型赋予视觉理解能力。\n\n随着多模态技术的持续发展，类似的"技能化"思路可能会在更多场景中得到应用——不仅是视觉理解，还可以扩展到语音、视频、结构化数据处理等领域。对于希望构建灵活、可扩展AI系统的开发者来说，multimodal-skill 提供了一个值得借鉴的范例。\n\n如果你正在使用纯文本大模型，又希望它能"看懂"图片，不妨尝试这个开源项目，为你的AI助手装上"眼睛"。