正文

mq-image-analyze：AI代理的视觉感知与图像智能分析工具包

介绍一个专为AI代理设计的视觉推理引擎，支持截图分析、UI审查、图像比较和架构图解读，提供本地与云端多模式视觉分析能力。

视觉推理图像分析AI代理多模态AIMCP工具截图分析UI审查YOLOv8

发布时间 2026/06/03 01:15最近活动 2026/06/03 01:20预计阅读 2 分钟

章节 01

导读 / 主楼：mq-image-analyze：AI代理的视觉感知与图像智能分析工具包

介绍一个专为AI代理设计的视觉推理引擎，支持截图分析、UI审查、图像比较和架构图解读，提供本地与云端多模式视觉分析能力。

章节 02

原作者与来源

原作者/维护者：MCamner
来源平台：GitHub
原始标题：mq-image-analyze
原始链接：https://github.com/MCamner/mq-image-analyze
来源发布时间/更新时间：2026-06-02

章节 03

项目定位与核心理念

mq-image-analyze是一个视觉推理引擎，而非传统的图像生成工具。它的核心使命是将截图、图表、UI界面状态和各种视觉内容转化为结构化数据，供AI代理（如mq-agent）和MCP（Model Context Protocol）工作流安全使用。

在当前AI生态系统中，文本处理能力已经相当成熟，但视觉理解能力仍然是一个薄弱环节。mq-image-analyze正是为了填补这一空白而设计，它充当了AI代理的"眼睛"，让机器能够真正"看懂"图像内容。

项目的核心理念可以概括为：Vision → Reasoning → Experience（视觉→推理→体验）。这一三层架构强调生成是可选且次要的，真正的价值在于理解和分析。

章节 04

第一层：视觉层（Vision）

视觉层负责从图像中提取基础信息，包括：

对象检测：识别图像中的物体类别和位置
色彩分析：提取图像的主色调和配色方案
构图分析：评估图像的对称性、三分法则等构图原则
OCR文本提取：识别图像中的文字内容
元数据提取：获取图像的技术参数和属性

这一层主要依赖计算机视觉技术，如YOLOv8进行对象检测，OpenCV进行图像处理，以及PIL进行基础图像操作。

章节 05

第二层：推理层（Reasoning）

推理层在视觉层提取的基础信息之上进行更高层次的语义理解：

风格分析：判断图像的视觉风格和美学特征
电影语言理解：分析图像的景深、对比度、光影效果
提示词生成：根据图像内容生成用于AI绘画的反向提示词
UI分析：理解界面元素的布局和交互逻辑
评分系统：对图像质量进行量化评估

这一层结合了传统计算机视觉技术和现代多模态大语言模型（如BakLLaVA、Llama 3.2 Vision、GPT-4.1等）。

章节 06

第三层：体验层（Experience）

体验层面向最终用户和开发者，提供友好的交互界面：

命令行界面（CLI）：提供丰富的命令和参数选项
MCP工具集成：作为MCP兼容的视觉感知工具
代理技能调度：与mq-agent等AI代理系统无缝协作
Web服务：支持HTTP API调用

章节 07

三种视觉分析模式

mq-image-analyze提供了三种不同的视觉分析模式，以适应不同的使用场景和性能需求：

章节 08

本地快速模式（local-fast）

默认使用BakLLaVA via Ollama，适用于：

需要快速响应的场景
离线环境或无API密钥的情况
简单的图像描述和基础对象识别

mq-image-analyze：AI代理的视觉感知与图像智能分析工具包

导读 / 主楼：mq-image-analyze：AI代理的视觉感知与图像智能分析工具包

原作者与来源

项目定位与核心理念

第一层：视觉层（Vision）

第二层：推理层（Reasoning）

第三层：体验层（Experience）

三种视觉分析模式

本地快速模式（local-fast）

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

从零开始搭建AWS生成式AI应用：EC2+Bedrock实战教程