正文

FoodSense：从食物图像预测多感官体验的多模态数据集与基准模型

本文介绍FoodSense数据集，包含66,842条人类标注数据，支持从食物图像预测味道、气味、质地和声音，并训练了FoodSense-VL视觉语言模型实现多感官推理。

多感官感知食物图像理解视觉语言模型跨模态推理FoodSense认知科学多模态数据集

发布时间 2026/04/16 04:02最近活动 2026/04/20 10:18预计阅读 2 分钟

章节 01

【导读】FoodSense：连接食物图像与多感官体验的创新研究

本文介绍FoodSense数据集（含66,842条人类标注数据，覆盖味道、气味、质地、声音四个感官维度），旨在填补AI食物理解缺乏深层感官体验认知的空白；训练了FoodSense-VL视觉语言模型实现多感官推理，并探讨其应用场景与认知科学意义。

章节 02

人类通过食物图像可唤起多感官体验（认知科学中的跨感官感知），但当前AI食物研究局限于识别任务（菜品类别、食材成分、营养估算），缺乏对食物感官体验的深层认知，导致理解停留在表面。

章节 03

FoodSense数据集含66,842个参与者-图像配对，覆盖2,987张独特食物图像；标注设计为数值评分（1-5李克特量表量化感官强度）+自由文本描述（捕捉细腻体验），涵盖四个感官维度；数据覆盖不同文化、烹饪风格，确保模型泛化能力。

章节 04

利用大语言模型将简短标注扩展为图像锚定的推理轨迹，解释感官预测依据（如从焦糖化色泽推断焦香味）；该轨迹关联视觉内容，为模型提供丰富训练信号，助力可解释性。

章节 05

采用端到端视觉语言架构，训练目标包括评分预测（回归任务，映射视觉特征与感官强度）和解释生成（条件文本生成，整合视觉信息与感官知识）；两任务协同，解释生成提升评分准确性，评分预测约束解释具体性。

章节 06

传统captioning指标（BLEU、CIDEr）忽视感官描述的准确性与图像一致性；建议未来评估关注描述与图像的一致性、感官属性准确性、推理过程合理性。

章节 07

应用场景包括智能餐饮推荐（基于感官偏好）、虚拟试吃（增强沉浸感）、食品营销（生成感染力描述）、饮食健康管理（结合营养与感官偏好）；该研究架起认知科学与AI的桥梁，未来AI或更接近人类的食物理解水平。