Zing 论坛

正文

FoodSense:从食物图像预测多感官体验的多模态数据集与基准模型

本文介绍FoodSense数据集,包含66,842条人类标注数据,支持从食物图像预测味道、气味、质地和声音,并训练了FoodSense-VL视觉语言模型实现多感官推理。

多感官感知食物图像理解视觉语言模型跨模态推理FoodSense认知科学多模态数据集
发布时间 2026/04/16 04:02最近活动 2026/04/20 10:18预计阅读 2 分钟
FoodSense:从食物图像预测多感官体验的多模态数据集与基准模型
1

章节 01

【导读】FoodSense:连接食物图像与多感官体验的创新研究

本文介绍FoodSense数据集(含66,842条人类标注数据,覆盖味道、气味、质地、声音四个感官维度),旨在填补AI食物理解缺乏深层感官体验认知的空白;训练了FoodSense-VL视觉语言模型实现多感官推理,并探讨其应用场景与认知科学意义。

2

章节 02

【背景】跨感官感知的认知科学与现有研究局限

人类通过食物图像可唤起多感官体验(认知科学中的跨感官感知),但当前AI食物研究局限于识别任务(菜品类别、食材成分、营养估算),缺乏对食物感官体验的深层认知,导致理解停留在表面。

3

章节 03

【方法】FoodSense数据集的构建细节

FoodSense数据集含66,842个参与者-图像配对,覆盖2,987张独特食物图像;标注设计为数值评分(1-5李克特量表量化感官强度)+自由文本描述(捕捉细腻体验),涵盖四个感官维度;数据覆盖不同文化、烹饪风格,确保模型泛化能力。

4

章节 04

【方法】推理轨迹生成:从标注到可解释AI

利用大语言模型将简短标注扩展为图像锚定的推理轨迹,解释感官预测依据(如从焦糖化色泽推断焦香味);该轨迹关联视觉内容,为模型提供丰富训练信号,助力可解释性。

5

章节 05

【方法】FoodSense-VL模型:多感官视觉语言基准模型

采用端到端视觉语言架构,训练目标包括评分预测(回归任务,映射视觉特征与感官强度)和解释生成(条件文本生成,整合视觉信息与感官知识);两任务协同,解释生成提升评分准确性,评分预测约束解释具体性。

6

章节 06

【评估】感官推理任务的评估指标反思

传统captioning指标(BLEU、CIDEr)忽视感官描述的准确性与图像一致性;建议未来评估关注描述与图像的一致性、感官属性准确性、推理过程合理性。

7

章节 07

【应用与展望】FoodSense的潜在价值与未来方向

应用场景包括智能餐饮推荐(基于感官偏好)、虚拟试吃(增强沉浸感)、食品营销(生成感染力描述)、饮食健康管理(结合营养与感官偏好);该研究架起认知科学与AI的桥梁,未来AI或更接近人类的食物理解水平。