章节 01
【导读】SMMU:多模态大语言模型社交智能基准测试框架
SMMU是专门评估多模态大语言模型社交智能能力的基准测试项目,填补当前LLM基准集中于认知能力、缺乏社交智能系统性评估的空白。通过交互式场景测试模型的心理理论(Theory of Mind)、社交推理、情境理解等核心社交智能能力,采用开源模式支持社区贡献,为多模态模型社交智能发展提供标准化评估工具。
正文
SMMU是一个专门评估多模态大语言模型社交智能能力的基准测试项目,通过交互式场景测试模型的Theory of Mind、社交推理和情境理解能力。
章节 01
SMMU是专门评估多模态大语言模型社交智能能力的基准测试项目,填补当前LLM基准集中于认知能力、缺乏社交智能系统性评估的空白。通过交互式场景测试模型的心理理论(Theory of Mind)、社交推理、情境理解等核心社交智能能力,采用开源模式支持社区贡献,为多模态模型社交智能发展提供标准化评估工具。
章节 02
当前大语言模型(LLM)基准测试多聚焦语言理解、数学推理或代码生成等认知能力,但对模型在社交情境中的表现——即“社交智能”缺乏系统性评估。社交智能是人类智能核心,涵盖理解他人意图、情绪、信念及在社交场景中做出恰当反应的能力。SMMU项目旨在填补这一空白,为多模态大语言模型提供全面的社交智能评估框架。
章节 03
社交智能指个体理解和管理社交关系、推断他人心理状态、并在社交情境中做出适当反应的能力,关键组成包括:
章节 04
SMMU从以下维度评估模型社交智能:
SMMU采用交互式评估方法,更接近真实社交互动,准确评估模型社交推理能力。
章节 05
SMMU项目使用JavaScript构建,包含交互式网页界面(通过GitHub Pages部署),项目结构如下:
项目在线访问入口:https://smmu-team.github.io/SMMU/,研究人员可直接在浏览器体验基准测试。
章节 06
社交智能评估对以下应用至关重要:
通过SMMU基准,研究者可:
章节 07
SMMU采用开源模式,欢迎社区贡献:
项目原作者/维护者:SMMU-Team,来源平台:GitHub,原始链接:https://github.com/SMMU-Team/SMMU,发布时间:2026年5月24日。
章节 08
SMMU代表AI评估领域从纯粹认知能力测试扩展到社交智能评估的重要方向。随着AI系统越来越多地参与人类社交互动,评估和提升其社交理解能力至关重要。该基准不仅为研究者提供标准化评估工具,也为未来多模态模型社交智能发展指明方向,期待更多模型在此基准上进步,最终实现具备真正社交理解能力的AI系统。