正文

ComfyUI多模态提示词生成节点：打通视觉大模型与AIGC工作流

ComfyUI-MultiModal-Prompt-Nodes是一款专为ComfyUI设计的插件，支持通过本地Qwen VL系列模型或阿里云DashScope API生成和优化图像/视频生成提示词。其独特优势在于针对中文语境优化，为Qwen-Image-Edit和Wan2.2等国产多模态模型提供了高效的提示词工程解决方案。

ComfyUIQwen多模态提示词工程视觉语言模型AIGCWan2.2图像生成视频生成GGUF

发布时间 2026/05/09 14:44最近活动 2026/05/09 14:53预计阅读 3 分钟

章节 01

【导读】ComfyUI多模态提示词生成节点：打通视觉大模型与AIGC工作流

ComfyUI-MultiModal-Prompt-Nodes是专为ComfyUI设计的插件，支持通过本地Qwen VL系列模型或阿里云DashScope API生成/优化图像/视频提示词。其核心优势在于中文语境优化，为Qwen-Image-Edit、Wan2.2等国产多模态模型提供高效提示词工程方案，降低AIGC创作门槛。

章节 02

项目背景与核心定位

在AIGC领域，提示词工程是生成质量的关键，但普通用户撰写高质量英文提示词难度大。该插件作为ComfyUI自定义节点，利用视觉大语言模型（VLM）将简单文本/参考图像转换为专业提示词，深度优化阿里云Qwen系列及Wan2.2视频模型，发挥中文语境性能优势。

章节 03

核心功能与技术创新

多模态输入：支持文本→提示词、图像→提示词、多图像输入（最多3张）；
灵活风格系统：内置raw/default/detailed/concise/creative五种风格；
本地化模型：支持Qwen2.5-VL/Qwen3-VL/Qwen3.5（GGUF格式，CPU/GPU运行）；
云端API：集成阿里云DashScope API，支持图像token压缩降低成本。

章节 04

针对国产模型的深度优化

中文提示词优势：Wan2.2/Qwen-Image-Edit对中文提示词理解更优，建议设置target_language为"zh"；
专用节点：Vision LLM（通用）、Qwen Image Edit Prompt Generator（修复系统提示问题）、Wan2.2 Video Prompt Generator（支持2048 token长文本）。

章节 05

技术实现与依赖管理

llama-cpp-python版本兼容性：
- 官方0.3.16：支持Qwen2.5-VL，不支持Qwen3-VL/Qwen3.5；
- JamePeng分支0.3.21+：支持Qwen2.5-VL/Qwen3-VL，不支持Qwen3.5；
- JamePeng分支0.3.33+：支持所有三种模型；推荐使用JamePeng分支（需自定义编译）；
mmproj自动检测：支持自动匹配或手动选择mmproj文件；
模型切换稳定性：v1.0.6后改进GGUF处理，切换模型时mmproj正确重载。

章节 06

安装与配置指南

标准安装：克隆到ComfyUI/custom_nodes目录，执行pip install -r requirements.txt；
模型组织：GGUF模型放ComfyUI/models/LLM/或models/text_encoders/；
API配置：在插件目录创建api_key.txt，填入阿里云DashScope密钥。

章节 07

使用场景与最佳实践

应用场景：图像生成（优化Stable Diffusion/FLUX提示词）、图像编辑（Qwen-Image-Edit指令生成）、视频生成（Wan2.2长文本支持）；
推荐配置：隐私优先→本地Qwen3-VL；质量优先→Qwen-VL-Max云端；成本优化→启用save_tokens；最佳效果→target_language=zh。

章节 08

局限性、版本更新与结语

局限性：Qwen2.5-VL指令遵循不足；环境依赖影响视觉输入效果；v1.0.10升级需重新选模型；
版本更新：v1.0.10扩展模型路径至models/text_encoders；v1.0.9修复系统提示bug；v1.0.8支持llama-cpp-python 0.3.16图像输入；v1.0.6改进模型处理；
结语：插件解决提示词生成痛点，本土化适配价值显著，反映国产模型生态崛起、提示词自动化等趋势。