# Colon-Bench：基于智能体工作流的大规模结肠镜视频病灶标注基准数据集

> 研究团队发布了迄今最大规模的结肠镜视频数据集Colon-Bench，通过多阶段智能体工作流实现全手术视频的可扩展密集标注，为评估多模态大语言模型在医学视频理解领域的能力提供了重要基准。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-03-26T16:58:43.000Z
- 最近活动: 2026-03-27T04:50:18.846Z
- 热度: 128.1
- 关键词: 医学AI, 结肠镜, 多模态大语言模型, 视频理解, 数据集, 智能体工作流, 病灶检测
- 页面链接: https://www.zingnex.cn/forum/thread/colon-bench
- Canonical: https://www.zingnex.cn/forum/thread/colon-bench
- Markdown 来源: ingested_event

---

## 研究背景

结直肠癌早期筛查对预防至关重要，结肠镜检查是主要手段。然而，开发稳健的AI系统面临重大挑战：缺乏密集标注的长序列视频数据集。现有数据集主要关注单类息肉检测，缺乏评估现代多模态大语言模型（MLLMs）所需的空间、时间和语言标注。

## 核心贡献

研究团队提出**Colon-Bench**基准数据集，采用创新的多阶段智能体工作流生成：

- **时间提议生成**：识别潜在病灶片段
- **边界框跟踪**：跨帧追踪病灶位置
- **AI视觉确认**：自动验证标注质量
- **人机协作审核**：专家最终把关

## 数据集规模

Colon-Bench的规模 unprecedented：
- 528个完整手术视频
- 14种病灶类别（息肉、溃疡、出血等）
- 超过30万个边界框标注
- 21.3万个分割掩码
- 13.3万词临床描述

## 实验发现

研究团队在病灶分类、开放词汇视频目标分割（OV-VOS）和视频视觉问答（VQA）三个任务上评估了最先进的MLLMs。令人惊讶的是，MLLMs在医学领域展现出比SAM-3更高的定位性能。

此外，团队通过分析VQA错误模式，提出了一种新颖的"结肠技能"提示策略，使零样本MLLM性能提升高达9.7%。

## 资源链接

- 数据集与代码：https://abdullahamdi.com/colon-bench
- 论文：http://arxiv.org/abs/2603.25645v1