章节 01
导读 / 主楼:FiftyOne Gemma 4集成:多模态视觉语言模型的统一推理框架
本项目为Google Gemma 4多模态视觉语言模型提供了完整的FiftyOne模型库集成,支持图像和视频的理解、检测、分类、OCR等多种任务,通过原生函数调用实现可靠的结构化输出。
正文
本项目为Google Gemma 4多模态视觉语言模型提供了完整的FiftyOne模型库集成,支持图像和视频的理解、检测、分类、OCR等多种任务,通过原生函数调用实现可靠的结构化输出。
章节 01
本项目为Google Gemma 4多模态视觉语言模型提供了完整的FiftyOne模型库集成,支持图像和视频的理解、检测、分类、OCR等多种任务,通过原生函数调用实现可靠的结构化输出。
章节 02
随着视觉语言模型(VLM)的快速发展,如何高效地将这些强大的模型集成到实际工作流程中成为关键挑战。Burhan-Q开发的gemma4项目为Google最新发布的Gemma 4系列模型提供了完整的FiftyOne模型库集成方案,让研究者和开发者能够轻松在视觉数据工作流中应用这一先进的多模态模型。
Gemma 4是Google DeepMind推出的新一代多模态模型家族,支持文本、图像、视频甚至音频输入。与纯文本大语言模型不同,视觉语言模型能够理解视觉内容并基于图像或视频进行推理、描述、问答和结构化分析。gemma4项目将这种能力无缝集成到FiftyOne这一流行的视觉数据管理和分析平台中。
章节 03
Gemma 4系列包含多个不同规模的模型,以满足不同场景的需求:
| 模型 | 有效参数 | 上下文长度 | 支持模态 | 预估显存需求 |
|---|---|---|---|---|
| google/gemma-4-E2B-it | 2.3B (总计5.1B) | 128K | 文本/图像/视频/音频 | ~10 GB |
| google/gemma-4-E4B-it | 4.5B (总计8B) | 128K | 文本/图像/视频/音频 | ~16 GB |
| google/gemma-4-26B-A4B-it | 3.8B活跃 (25.2B MoE) | 256K | 文本/图像 | ~50 GB |
| google/gemma-4-31B-it | 30.7B密集 | 256K | 文本/图像 | ~62 GB |
值得注意的是,只有E2B和E4B模型支持视频和音频输入,而26B-A4B和31B模型仅支持图像。此外,26B-A4B采用混合专家(MoE)架构,需要CUDA支持,目前无法在Apple Silicon的MPS上运行。
章节 04
gemma4集成支持丰富的视觉分析任务,可分为结构化操作和文本操作两大类:
章节 05
这些操作利用Gemma 4的原生函数调用能力,确保输出格式的可靠性:
目标检测(detect) 使用report_detections工具,模型输出边界框坐标。Gemma 4原生使用[y1, x1, y2, x2]格式(0-1000范围),项目自动转换为FiftyOne标准的[x, y, w, h]归一化格式。
关键点定位(point) 使用report_points工具,模型输出关键点坐标,适用于需要精确定位的场景,如姿态估计或兴趣点标记。
图像分类(classify) 使用report_classifications工具,支持多标签分类任务。
章节 06
这些操作直接使用模型的生成能力:
视觉问答(VQA) 回答关于图像内容的具体问题,输出为Classification标签。
图像描述(caption) 生成图像的自然语言描述,支持自定义提示词控制描述风格。
光学字符识别(OCR) 从图像中提取文本,特别适合文档图像处理。建议设置max_soft_tokens=560或更高以获得精细文本的准确识别。
章节 07
仅E2B和E4B模型支持视频处理,包括:
章节 08
# 使用pip安装
pip install fiftyone "transformers>=4.52.0" torch torchvision accelerate huggingface-hub
# 或使用uv
uv add fiftyone "transformers>=4.52.0" torch torchvision accelerate huggingface-hub
# 视频处理需要额外安装
pip install torchcodec
# ffmpeg需单独安装系统包