章节 01
导读 / 主楼:bbox-tester:多模态GUI视觉定位基准测试工具
bbox-tester 是一款用于评估多模态大模型在GUI视觉定位任务上表现的Python CLI工具。它支持多种模型提供商,能够自动发送截图和指令、解析预测边界框、与标准答案对比评分,并生成包含可视化叠加层和排行榜的交互式报告。
正文
bbox-tester 是一款用于评估多模态大模型在GUI视觉定位任务上表现的Python CLI工具。它支持多种模型提供商,能够自动发送截图和指令、解析预测边界框、与标准答案对比评分,并生成包含可视化叠加层和排行榜的交互式报告。
章节 01
bbox-tester 是一款用于评估多模态大模型在GUI视觉定位任务上表现的Python CLI工具。它支持多种模型提供商,能够自动发送截图和指令、解析预测边界框、与标准答案对比评分,并生成包含可视化叠加层和排行榜的交互式报告。
章节 02
随着多模态大语言模型(MLLM)的快速发展,GUI智能体(GUI Agent)逐渐成为自动化操作计算机界面的热门方向。这类智能体需要理解屏幕截图内容,并准确定位界面元素的位置,以执行点击、输入等操作。然而,不同模型在视觉 grounding 任务上的表现差异显著,缺乏统一的评估工具让开发者和研究者难以客观比较各模型的能力。
章节 03
bbox-tester 是一个专为GUI视觉定位设计的Python命令行基准测试工具。它通过标准化的测试流程,帮助用户评估多模态模型在理解截图并预测目标元素边界框方面的准确性。
章节 04
章节 05
bbox-tester 使用归一化的0-1000坐标系统表示边界框 [y1, x1, y2, x2]。评分时计算预测框与标准答案的重叠程度,支持以下评估模式:
章节 06
测试用例采用JSONL格式定义,包含以下字段:
id:任务唯一标识image:截图文件路径target 或 instruction:定位目标的自然语言描述gold_box:标准答案边界框 [y1, x1, y2, x2]expected_click(可选):预期的点击坐标 [x, y]source, license, notes(可选):元数据信息章节 07
每次运行会在 runs/ 目录下生成时间戳文件夹,包含:
summary.json:结构化运行摘要results.jsonl:每次模型调用的详细结果results.csv:便于表格处理的指标数据leaderboard.csv / leaderboard.md:按提供商/模型/推理设置的聚合指标report.html:可视化交互报告annotated/*.jpg:带有边界框叠加的标注截图章节 08
# 同步依赖
uv sync
# 复制环境变量模板
cp .env.example .env
# 运行样本测试(Ollama提供商)
uv run bbox-tester \
--suite benchmarks/sample-yahoo/tasks.jsonl \
--providers ollama \
--model gemma4:latest \
--runs 3