Zing 论坛

正文

FoodSense:从食物图像预测多感官体验的多模态数据集与基准模型

FoodSense构建了包含66,842个参与者标注的数据集,让AI能够从食物图像预测味觉、嗅觉、质地和声音,并生成基于视觉的可解释推理。

跨感官推理食物图像理解视觉语言模型多模态数据集认知科学
发布时间 2026/04/16 04:02最近活动 2026/04/17 10:21预计阅读 2 分钟
FoodSense:从食物图像预测多感官体验的多模态数据集与基准模型
1

章节 01

【导读】FoodSense项目:让AI从食物图像感知多感官体验的突破

FoodSense项目旨在解决AI跨感官推理的空白,构建了含66,842个参与者标注的数据集,覆盖2,987张食物图像,支持从视觉预测味觉、嗅觉、质地和声音,并生成可解释推理。训练的FoodSense-VL模型推动食物图像理解从表层识别迈向多感官感知,连接认知科学与AI。

2

章节 02

背景:人类跨感官感知与AI的认知鸿沟

人类看到食物图像能联想多维度感官体验(如披萨的酥脆、香气),但当前AI仅能识别表层语义(如“这是披萨”),无法感知感官特性,限制了美食推荐等场景应用,FoodSense项目由此诞生。

3

章节 03

FoodSense数据集:多感官标注的大规模资源

数据集含66,842参与者-图像配对、2987张图,标注四维度:

  • 味觉:1-5分评分+自由描述(如“甜中带酸”);
  • 嗅觉:香气特征+强度评分(如“烤面包焦香”);
  • 质地:视觉可推断属性(如“酥脆”“绵软”);
  • 声音:食用声音想象(如“薯片咔嚓声”)。
4

章节 04

方法:从标注到视觉推理链的数据增强

用大语言模型将简短标注扩展为图像推理链,如炸鸡示例:“金黄酥脆外壳→高温油炸多孔结构→酥脆口感+咔嚓声;金黄色泽→美拉德反应→焦香鲜味...” 连接认知科学与指令微调,提供训练信号。

5

章节 05

FoodSense-VL模型:多任务与可解释推理

模型创新:

  • 多任务学习:共享编码器+任务头,学习感官关联(如酥脆外观→咔嚓声);
  • 生成解释:自然语言说明预测的视觉依据;
  • 细粒度感知:注意力机制映射图像区域与感官属性(如纹理→质地)。
6

章节 06

评估反思:传统指标的局限性

传统视觉语言指标(如语义正确性)无法捕捉感官体验的微妙性(如“酥脆可口”与“外酥里嫩”等价),呼吁开发感知敏感的评估指标。

7

章节 07

应用场景与未来方向

应用:智能推荐(口感偏好)、虚拟试吃(感官描述)、烹饪辅助(菜品研发)、无障碍(视障人士感官描述)。 局限与未来:数据集存在文化差异,静态图难推动态体验;未来需扩展文化多样性、引入视频、关联化学成分。

8

章节 08

结语:认知科学与AI的桥梁

FoodSense将人类跨感官感知转化为多模态模型,推动食物理解从“是什么”到“感觉如何”,是迈向类人智能的重要一步。