正文

FoodSense：从食物图像预测多感官体验的多模态数据集与基准模型

FoodSense构建了包含66,842个参与者标注的数据集，让AI能够从食物图像预测味觉、嗅觉、质地和声音，并生成基于视觉的可解释推理。

跨感官推理食物图像理解视觉语言模型多模态数据集认知科学

发布时间 2026/04/16 04:02最近活动 2026/04/17 10:21预计阅读 2 分钟

章节 01

【导读】FoodSense项目：让AI从食物图像感知多感官体验的突破

FoodSense项目旨在解决AI跨感官推理的空白，构建了含66,842个参与者标注的数据集，覆盖2,987张食物图像，支持从视觉预测味觉、嗅觉、质地和声音，并生成可解释推理。训练的FoodSense-VL模型推动食物图像理解从表层识别迈向多感官感知，连接认知科学与AI。

章节 02

人类看到食物图像能联想多维度感官体验（如披萨的酥脆、香气），但当前AI仅能识别表层语义（如“这是披萨”），无法感知感官特性，限制了美食推荐等场景应用，FoodSense项目由此诞生。

章节 03

数据集含66,842参与者-图像配对、2987张图，标注四维度：

章节 04

用大语言模型将简短标注扩展为图像推理链，如炸鸡示例：“金黄酥脆外壳→高温油炸多孔结构→酥脆口感+咔嚓声；金黄色泽→美拉德反应→焦香鲜味...” 连接认知科学与指令微调，提供训练信号。

章节 05

模型创新：

章节 06

传统视觉语言指标（如语义正确性）无法捕捉感官体验的微妙性（如“酥脆可口”与“外酥里嫩”等价），呼吁开发感知敏感的评估指标。

章节 07

应用：智能推荐（口感偏好）、虚拟试吃（感官描述）、烹饪辅助（菜品研发）、无障碍（视障人士感官描述）。 局限与未来：数据集存在文化差异，静态图难推动态体验；未来需扩展文化多样性、引入视频、关联化学成分。

章节 08

FoodSense将人类跨感官感知转化为多模态模型，推动食物理解从“是什么”到“感觉如何”，是迈向类人智能的重要一步。