# ComfyUI LLM++：为AI图像生成工作流注入大语言模型能力

> ComfyUI LLM++是一个自定义节点，将多模态大语言模型集成到ComfyUI工作流中，支持通过云端API或本地模型自动生成和优化图像生成提示词，大幅提升AI绘画的工作效率。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-14T16:40:23.000Z
- 最近活动: 2026-06-14T16:52:13.292Z
- 热度: 154.8
- 关键词: ComfyUI, multimodal LLM, image generation, prompt engineering, Stable Diffusion, Mistral, Gemini, LM Studio, AI绘画, 提示词生成
- 页面链接: https://www.zingnex.cn/forum/thread/comfyui-llm-ai
- Canonical: https://www.zingnex.cn/forum/thread/comfyui-llm-ai
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：abzaloff
- 来源平台：github
- 原始标题：Comfyui_LLM-
- 原始链接：https://github.com/abzaloff/Comfyui_LLM-
- 来源发布时间/更新时间：2026-06-14T16:40:23Z

## 原作者与来源\n\n- **原作者/维护者**: abzaloff\n- **来源平台**: GitHub\n- **原始标题**: ComfyUI LLM++\n- **原始链接**: https://github.com/abzaloff/Comfyui_LLM-\n- **发布时间**: 2026年6月14日\n\n## 背景：提示词工程的痛点\n\n在使用Stable Diffusion、ComfyUI等AI图像生成工具时，编写高质量的提示词（prompt）是获得理想结果的关键。然而，手动编写详细、准确的提示词既耗时又需要技巧——用户需要理解构图、光照、风格、材质等专业术语，还要掌握特定的语法格式。\n\nComfyUI LLM++正是为解决这一痛点而生。它通过将多模态大语言模型（MLLM）集成到ComfyUI工作流中，让用户能够用自然语言描述需求，由AI自动生成专业的图像生成提示词。\n\n## 项目概述\n\nComfyUI LLM++是一个自定义ComfyUI节点，可以接受文本和可选的图像输入，通过调用多模态语言模型生成可直接使用的图像提示词。生成的提示词可以作为字符串输出，连接到CLIP Text Encode节点、提示词处理器、翻译节点或任何接受文本输入的节点。\n\n### 核心功能\n\n1. **文本到提示词**：将简单的自然语言描述转换为详细的图像生成提示词\n2. **图像到提示词**：分析参考图像，生成描述该图像的提示词（支持批量处理最多30张图像）\n3. **提示词优化**：重写或扩展现有提示词，提升质量和细节\n4. **多模型支持**：支持云端API和本地模型，灵活适应不同需求\n\n## 支持的模型\n\nComfyUI LLM++目前支持以下模型：\n\n**云端模型**：\n- **Mistral**: pixtral-large-latest —— 强大的多模态模型\n- **Gemini**: gemini-2.5-flash —— 快速响应的轻量级模型\n- **Gemini Pro**: gemini-2.5-pro —— 高质量的专业级模型\n\n**本地模型**：\n- **LM Studio**: 通过OpenAI兼容API连接本地运行的模型\n  - 支持任何在LM Studio中加载的多模态模型\n  - 文本专用模型也可使用（但无法处理图像输入）\n\n这种混合架构让用户可以根据任务复杂度、隐私需求和成本考虑灵活选择模型。\n\n## 安装与配置\n\n### 安装步骤\n\n1. 将项目目录复制到ComfyUI的自定义节点目录：\n   ```\n   ComfyUI/custom_nodes/Comfyui_LLM++\n   ```\n\n2. 重启ComfyUI并刷新浏览器页面\n\n3. 确保依赖包已安装（requests、Pillow、numpy，通常ComfyUI已包含）\n\n### API配置\n\n在ComfyUI设置面板中找到 **Settings -> LLM++ -> API and image settings**：\n\n**Mistral配置**：\n- 在Mistral账户中创建API密钥\n- 在设置中输入密钥\n- 在节点选择 mistral: pixtral-large-latest\n\n**Gemini配置**：\n- 在Google AI Studio创建Gemini API密钥\n- 在设置中输入密钥\n- 选择 gemini: gemini-2.5-flash 或 gemini: gemini-2.5-pro\n\n**LM Studio配置**：\n- 启动LM Studio并加载模型\n- 启用Local Server\n- 确认服务器地址（默认：http://127.0.0.1:1234/v1）\n- 在设置中输入地址\n- 点击节点中的"Refresh LM Studio models"按钮\n- 选择带有 lmstudio: 前缀的模型\n\n## 图像处理设置\n\n在发送到API之前，图像会自动进行以下处理：\n\n1. 转换为RGB格式\n2. 保持宽高比进行缩放\n3. JPEG压缩\n4. API请求编码\n\n可配置的参数：\n- **Image maximum side (px)**: 图像最长边的最大长度，默认768像素\n- **Image maximum JPEG size (KB)**: 目标最大JPEG文件大小，默认400KB\n\n这种自动优化确保了图像在保持质量的同时，符合API的大小限制。\n\n## 节点使用详解\n\n### 基本工作流\n\n一个典型的使用场景：\n```\nLoad Image -> LLM++ Prompt -> CLIP Text Encode -> KSampler -> Save Image\n```\n\n图像输入是可选的——节点也可以仅基于文本提示词进行生成或优化。\n\n### 输入参数\n\n**prompt（提示词）**\n发送给模型的指令或源文本。示例：\n- \"Describe the image as a detailed English image generation prompt.\"\n- \"Rewrite this idea into a detailed cinematic image prompt.\"\n- \"Describe the image using comma-separated SDXL tags.\"\n\n**image（图像）**\n可选的ComfyUI图像输入，支持图像批次（最多30张）。\n\n**model（模型）**\n用于提示词生成的提供商和模型。\n\n**temperature（温度）**\n控制响应的变化程度。较低值更一致，较高值产生更多变化。\n\n**max_tokens（最大token数）**\n模型生成的最大输出token数。\n\n**top_p**\n控制核采样（nucleus sampling）。\n\n**append_text（附加文本）**\n可选的附加文本，会追加到生成的提示词后。\n\n**auto_unload_lmstudio**\n收到响应后卸载选定的LM Studio模型（节省显存）。\n\n### 生成模式\n\n**Every Run（每次运行）**\n每次工作流排队或运行时都生成新的提示词。适用于需要每次执行都有不同提示词变体的场景。\n\n**On Input Change（输入变化时）**\n仅当LLM++ Prompt节点的输入发生变化时才发送新的API请求。如果下游图像生成节点的种子或参数改变，不会重新生成提示词。这使得可以从同一提示词生成多张图像，而无需重复API调用，节省成本和时间。\n\n## 实际应用示例\n\n### 场景1：图像反推\n\n输入：一张参考图片\n指令：\"Describe the image as a detailed English image generation prompt.\"\n输出：详细的图像生成提示词，描述图片的内容、风格、构图等\n\n### 场景2：提示词优化\n\n输入：\"a cat sitting on a chair\"\n指令：\"Rewrite this idea into a detailed cinematic image prompt.\"\n输出：\"A fluffy orange tabby cat sitting gracefully on a vintage wooden chair, soft natural lighting from a nearby window, shallow depth of field, photorealistic style, 8k resolution...\"\n\n### 场景3：批量处理\n\n输入：30张风格参考图\n指令：\"Describe the image using comma-separated SDXL tags.\"\n输出：每张图片对应的标签列表，可用于训练LoRA模型或风格迁移\n\n## 故障排除\n\n**API key is not set**\n→ 打开 Settings -> LLM++ 并为选定的提供商配置API密钥\n\n**LM Studio models are not displayed**\n→ 检查：\n  - LM Studio是否正在运行\n  - Local Server是否已启用\n  - LM Studio API base是否包含正确的地址\n  - 启动服务器后是否点击了"Refresh LM Studio models"\n\n**An LM Studio model does not accept images**\n→ 选定的模型可能是纯文本模型。使用多模态视觉模型，或断开图像输入\n\n**The prompt is regenerated on every workflow run**\n→ 将generation_mode设置为"On Input Change"，并确保LLM++ Prompt节点的输入保持不变\n\n## 安全与隐私\n\nAPI密钥和本地配置存储在 `llm_prompt_config.json` 文件中，该文件已被.gitignore排除——它可能包含API密钥，不应提交、发布或共享。\n\n使用本地LM Studio模型时，图像和提示词不会离开本地机器，适合处理敏感内容。\n\n## 总结\n\nComfyUI LLM++通过将大语言模型的语义理解能力引入ComfyUI工作流，极大地简化了AI图像生成的提示词工程。无论是图像反推、提示词优化还是批量处理，它都能显著提升工作效率。支持云端和本地模型的混合架构，让用户可以根据需求在便利性和隐私性之间灵活选择。