# TinyLLaVA Factory：小规模多模态大模型的模块化训练框架

> TinyLLaVA Factory是一个开源的模块化代码库，专注于小规模大型多模态模型（LMMs）的训练与定制。通过支持多种LLM骨干、视觉编码器和连接器架构，该框架让研究者能够以更少的代码投入定制自己的多模态模型。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-17T06:44:33.000Z
- 最近活动: 2026-04-17T07:24:41.043Z
- 热度: 159.3
- 关键词: 多模态模型, 视觉语言模型, 小规模LLM, TinyLLaVA, Phi-2, SigLIP, 模型训练框架, 边缘部署
- 页面链接: https://www.zingnex.cn/forum/thread/tinyllava-factory
- Canonical: https://www.zingnex.cn/forum/thread/tinyllava-factory
- Markdown 来源: ingested_event

---

# TinyLLaVA Factory：小规模多模态大模型的模块化训练框架

## 多模态模型的小型化趋势

随着GPT-4V、Claude 3等大模型的多模态能力惊艳亮相，业界对视觉-语言模型的关注度持续攀升。然而，这些顶级模型往往参数量庞大、推理成本高昂，难以在边缘设备或资源受限场景中部署。

与此同时，研究表明，通过精心设计的架构和训练策略，**小规模模型也能实现令人惊喜的多模态性能**。TinyLLaVA Factory正是顺应这一趋势而生的开源项目，它为构建和训练小型多模态模型提供了完整的基础设施。

该项目的旗舰模型TinyLLaVA-Phi-2-SigLIP-3.1B（仅31亿参数）在多项基准测试中超越了参数量翻倍的传统模型如LLaVA-1.5-7B和Qwen-VL-7B，证明了小规模模型的巨大潜力。

## 框架核心定位

TinyLLaVA Factory是一个基于PyTorch和HuggingFace的开源模块化代码库，其设计哲学围绕三个核心目标：

**代码简洁性**：清晰的实现结构，降低理解和修改的门槛

**功能可扩展性**：易于添加新的模型组件和训练策略

**结果可复现性**：提供详细的超参数配置，确保训练结果的一致性

与许多"黑盒式"的训练框架不同，TinyLLaVA Factory鼓励用户深入理解每个组件的工作原理，并根据自己的需求进行定制。

## 支持的模型组件生态

框架的最大特色在于其丰富的组件选择，用户可以自由组合不同的模块来构建定制化的多模态模型：

### 语言模型（LLM）支持

- **OpenELM**：苹果开源的高效语言模型系列
- **TinyLlama**：轻量级但性能强劲的1.1B参数模型
- **StableLM**：Stability AI推出的稳定训练语言模型
- **Qwen/Qwen2.5**：阿里巴巴通义千问系列
- **Gemma**：Google开源的轻量级模型
- **Phi-2**：微软研究院的高效小模型

### 视觉编码器（Vision Tower）支持

- **CLIP**：OpenAI的经典视觉-语言预训练模型
- **SigLIP**：Google改进的视觉编码器，在多项任务中表现更优
- **DINOv2**：Meta自监督学习的视觉特征提取器
- **CLIP+DINO组合**：利用两种编码器的互补特性

### 连接器（Connector）架构

连接器负责将视觉特征映射到语言模型的输入空间，框架支持多种设计方案：

- **MLP**：简单高效的多层感知机
- **Q-Former**：来自BLIP-2的查询变换器架构
- **Resampler**：用于压缩视觉token数量的重采样器

### 训练策略

- **全量微调（Fully tuning）**：更新所有参数
- **部分微调（Partially tuning）**：只更新特定层
- **冻结训练（Frozen tuning）**：冻结部分组件
- **LoRA/QLoRA**：参数高效微调方法

## 训练流程与超参数配置

TinyLLaVA Factory采用经典的两阶段训练范式：预训练（Pretraining）和微调（Finetuning）。

### 预训练阶段

预训练的目标是让模型学习视觉-语言的基本对齐关系。关键超参数如下：

| 参数 | 配置 |
|------|------|
| 全局批次大小 | 256 |
| 学习率 | 1e-3 |
| 对话模板 | pretrain |

这一阶段通常使用大规模的图文配对数据集，如LAION、Conceptual Captions等。

### 微调阶段

微调阶段使用指令跟随数据，培养模型的对话和推理能力：

| 参数 | 配置 |
|------|------|
| 全局批次大小 | 128 |
| 学习率 | 2e-5 |
| 对话模板 | 根据LLM类型选择 |

不同LLM使用不同的对话模板（conv_version）：

- **Phi-2、StableLM、Qwen-1.5**：使用`phi`模板
- **TinyLlama、OpenELM**：使用`llama`模板
- **Gemma**：使用`gemma`模板

### 批次大小计算公式

全局批次大小 = GPU数量 × 每设备批次大小 × 梯度累积步数

除非使用LoRA微调，否则建议保持全局批次大小和学习率与官方配置一致，以确保训练稳定性。

## 模型性能基准

以下是使用TinyLLaVA Factory训练的部分模型在标准评测集上的表现：

**TinyLLaVA-Phi-2-SigLIP-3.1B**（推荐配置）：

| 评测集 | 得分 |
|--------|------|
| VQA-v2 | 79.2 |
| GQA | 61.6 |
| SQA-image | 71.9 |
| TextVQA | 57.4 |
| MM-Vet | 35.0 |
| POPE | 87.2 |
| MME | 1462.4 |
| MMMU-val | 38.2 |

值得注意的是，使用SigLIP视觉编码器的配置普遍优于使用CLIP的配置，这反映了视觉编码器选择对最终性能的重要影响。

## 快速开始指南

### 环境准备

强烈建议从零创建环境，避免与LLaVA等项目的依赖冲突：

```bash
# 克隆仓库
git clone https://github.com/TinyLLaVA/TinyLLaVA_Factory.git
cd TinyLLaVA_Factory

# 创建conda环境
conda create -n tinyllava_factory python=3.10 -y
conda activate tinyllava_factory

# 安装依赖
pip install --upgrade pip
pip install -e .

# 安装Flash Attention（可选，用于加速）
pip install flash-attn==2.5.7 --no-build-isolation
```

### 数据准备

详细的数据准备指南请参考官方文档的[Prepare Datasets](https://tinyllava-factory.readthedocs.io/en/latest/Prepare%20Datasets.html)章节。

### 训练执行

以训练基于Phi-2的模型为例：

```bash
# 修改脚本中的数据路径和输出目录
# scripts/train/train_phi.sh

# 执行训练
bash scripts/train/train_phi.sh
```

该脚本会自动依次执行预训练和微调两个阶段。

### 模型评估与推理

训练完成后，可以使用框架提供的工具进行模型评估和本地演示：

```bash
# 启动Gradio Web界面
# 访问 http://8843843nmph5.vicp.fun/（密码：1234）查看在线演示

# 或使用CLI进行推理
python scripts/inference/cli_inference.py 
    --model_path <your_model_path> 
    --image_file <image_path>
```

## 框架的扩展能力

TinyLLaVA Factory的设计充分考虑了扩展需求。添加新的LLM支持只需：

1. 在`tinyllava/model/llm/`目录下创建新的模型类
2. 实现对应的对话模板
3. 注册到模型工厂

类似地，添加新的视觉编码器或连接器也遵循相同的模式。这种模块化架构使得社区贡献变得简单直接。

## 可视化工具

2024年8月，项目团队添加了一个可视化工具`tinyllava_visualizer`，用于解释模型的预测结果。该工具可以帮助研究者：

- 理解模型关注图像的哪些区域
- 分析视觉token的激活模式
- 调试模型错误预测的原因

这种可解释性工具对于研究和改进多模态模型具有重要价值。

## 学术贡献与引用

TinyLLaVA Factory基于以下两篇论文：

1. **TinyLLaVA Factory**（2024.05）：介绍框架设计和实现细节
2. **TinyLLaVA: A Framework of Small-scale Large Multimodal Models**（2024.02）：阐述小规模多模态模型的核心思想

项目团队还推出了视频理解扩展版本TinyLLaVA-Video，进一步拓展了框架的应用场景。

## 总结与适用场景

TinyLLaVA Factory为资源受限场景下的多模态应用提供了可行路径。其适用场景包括：

- **边缘设备部署**：在移动端或嵌入式设备上运行视觉问答
- **研究实验**：快速验证新的架构组合或训练策略
- **教育用途**：学习多模态模型的训练流程
- **成本敏感应用**：降低推理API调用成本

通过模块化设计和丰富的预置组件，TinyLLaVA Factory降低了构建定制化多模态模型的门槛。对于希望在有限资源下探索视觉-语言能力的开发者和研究者来说，这是一个值得深入研究的工具框架。