Zing 论坛

正文

SIMMER:基于多模态大语言模型的食物图像-食谱跨模态检索新方法

本文提出SIMMER框架,使用单一多模态编码器替代传统双编码器架构,在Recipe1M数据集上实现图像到食谱检索R@1从81.8%提升至87.5%的突破性进展。

跨模态检索多模态大语言模型食物图像食谱推荐SIMMER统一编码器VLM2Vec
发布时间 2026/04/17 10:09最近活动 2026/04/20 10:20预计阅读 2 分钟
SIMMER:基于多模态大语言模型的食物图像-食谱跨模态检索新方法
1

章节 01

【导读】SIMMER:食物图像-食谱跨模态检索的突破性新方法

本文提出SIMMER框架,采用单一多模态编码器替代传统双编码器架构,在Recipe1M数据集上实现图像到食谱检索R@1从81.8%提升至87.5%的突破性进展。该方法解决了传统跨模态检索中的语义鸿沟、任务特定设计等问题,为食物图像与食谱文本的跨模态检索提供了新范式。

2

章节 02

背景:跨模态检索的应用价值与传统方法局限

跨模态检索的应用价值

在数字化生活中,食物图像与食谱文本的跨模态检索可满足复刻菜肴、营养管理、烹饪辅助等需求,如拍摄食材照片找菜谱、餐饮企业智能菜单管理等。

传统双编码器架构的局限

  1. 语义鸿沟:独立图像与文本编码器导致表示空间难以统一;
  2. 任务特定设计:需为不同任务定制网络,开发成本高;
  3. 细粒度关联不足:难以捕捉配料、烹饪方法等细节匹配。
3

章节 03

SIMMER核心创新:单一统一编码器架构

SIMMER(Single Integrated Multimodal Model for Embedding Recipes)采用VLM2Vec作为基础多模态大语言模型,将食物图像编码为视觉token,与食谱文本token共同输入单一编码器,生成统一嵌入向量,从根本上消除双编码器的语义鸿沟问题。

4

章节 04

针对食谱结构的结构化提示设计

食谱包含标题、配料、步骤三大核心组件,SIMMER设计专门提示模板:

  • 图像输入提示引导关注视觉特征(颜色、质地、形状)及烹饪方式;
  • 文本输入提示明确区分标题、配料、步骤层次,帮助模型理解食谱结构,生成更语义丰富的嵌入。
5

章节 05

组件感知的数据增强策略

为提升对不完整输入的鲁棒性,SIMMER采用组件感知增强:训练时处理完整食谱及多种部分组合(仅标题、标题+配料等),使模型能从有限信息片段中提取语义,应对实际场景中食谱信息不全的情况。

6

章节 06

实验证据:Recipe1M数据集上的显著性能提升

在Recipe1M数据集评估中:

  • 1k设置:图像到食谱检索R@1达87.5%,较之前最佳提升5.7个百分点;
  • 10k设置:R@1从56.5%跃升至65.5%,提升9个百分点;
  • 所有指标超越基线,证明单一编码器架构及多模态大语言模型的优越性。
7

章节 07

结论与应用前景

技术启示

  1. 统一编码器架构消除语义鸿沟,可推广至其他跨模态任务;
  2. 结构化提示提升特定领域性能;
  3. 组件感知增强提升实际应用鲁棒性。

应用场景

智能厨房助手、餐饮营养分析、社交媒体美食发现、餐饮企业智能管理等。

结语

SIMMER代表食物跨模态检索领域的重要突破,为实际应用奠定基础,未来将推动更智能的人机交互服务美好生活。