# Inter-Stance：面向对话立场分析的多模态双人语料库发布

> 纽约州立大学宾汉姆顿分校等机构的研究团队发布了Inter-Stance数据集，这是一个包含45对参与者（共90人）的多模态双人交互语料库，涵盖同步采集的2D/3D面部视频、热成像、语音及多种生理信号，为计算社会科学和情感计算领域提供了前所未有的研究资源。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-24T17:37:42.000Z
- 最近活动: 2026-04-27T03:22:27.282Z
- 热度: 102.3
- 关键词: 多模态数据集, 立场分析, 情感计算, 社交信号处理, 双人交互, 计算机视觉, 生理信号, 热成像
- 页面链接: https://www.zingnex.cn/forum/thread/inter-stance
- Canonical: https://www.zingnex.cn/forum/thread/inter-stance
- Markdown 来源: ingested_event

---

## 研究背景：社会交互的多模态本质\n\n人类社会交互是一个复杂的多模态过程。我们在日常交流中不仅通过语言表达观点，更通过面部表情、肢体语言、语调变化乃至生理反应来传递态度和情感。研究表明，人们在社交互动中会无意识地模仿对方的姿势、表情和 mannerisms，这种"双人效应"（dyadic effect）是建立 rapport 和社会判断的重要指标。\n\n然而，现有的公开数据集存在明显局限：要么只关注单人单模态数据（如仅有面部表情或仅有语音），要么在采集双人交互数据时缺乏丰富的传感器配置。特别是，目前还没有任何公开数据集能够同时提供双人交互过程中的多模态记录（2D视频、3D面部几何、热成像、语音、文本、生理信号）以及参与者的自我报告数据。这一数据空白严重制约了人际交互计算建模的发展。\n\n## Inter-Stance数据集概述\n\n为填补这一研究空白，来自纽约州立大学宾汉姆顿分校、伦斯勒理工学院、匹兹堡大学等机构的研究团队联合发布了Inter-Stance数据集。该数据集专门设计用于研究面对面对话中的立场（stance）表达——即参与者在交流过程中表现出的同意、不同意或中立态度。\n\n数据集的核心规模包括：\n- **45对参与者**（共90人），涵盖有共同历史背景的熟人和陌生人两种类型\n- **270组多模态序列**，总计1400多分钟（约210万帧）的双人交互数据\n- **20TB的数据总量**，向研究社区开放共享\n\n## 多模态数据采集配置\n\nInter-Stance的数据采集采用了前所未有的传感器组合，能够同时记录两位参与者的多维度行为数据：\n\n### 视觉模态\n- **2D高清视频**：捕捉面部表情和头部动作的时序变化\n- **3D面部几何**：通过高精度传感器获取面部形状的动态三维结构\n- **热成像视频与温度数据**：记录面部皮肤温度变化，反映自主神经系统的激活状态\n\n### 语音与语言模态\n- 高保真音频采集\n- 同步转录文本\n\n### 生理信号模态\n- **光电容积脉搏波（PPG）**：反映心血管活动\n- **皮肤电活动（EDA）**：指示交感神经激活程度\n- **心率（HR）、血压（BP）、呼吸率（RR）**：全面的自主神经系统指标\n\n这种多模态同步采集能力使研究者能够探索外部可观察行为与内部生理状态在立场表达时刻的关联，这是以往任何数据集都无法实现的。\n\n## 实验设计与立场标注\n\n研究团队设计了经过IRB（机构审查委员会）批准的实验方案，通过精心设计的对话任务有效诱发自然的立场相关行为。参与者进行面对面的自由讨论，话题涵盖可能产生分歧的社会议题。\n\n数据标注包括三个核心立场类别：\n- **同意（Agreement）**：参与者表达对谈话内容的认同\n- **不同意（Disagreement）**：参与者表达异议或反对\n- **中立（Neutral）**：参与者保持中立态度或进行中性陈述\n\n此外，数据集还包含社交信号（social signals）和情感同步性（synchrony）的标注，为研究人际情感影响提供了丰富素材。\n\n## 与现有数据集的对比\n\n相比现有的多模态数据集，Inter-Stance具有显著优势：\n\n| 数据集 | 双人数量 | 参与者 | 模态 | 关键局限 |
|--------|----------|--------|------|----------|
| IEMOCAP | 5对 | 10名演员 | 音频、视频、动作捕捉 | 缺乏3D面部几何和热成像 |
| RECOLA | 23对 | 46名学生 | 音频、视频、ECG、EDA | 远程视频设置，缺乏3D和热成像 |
| HMI-Mimicry | 54对 | 12名同谋+48名参与者 | 音频、视频 | 缺乏3D、热成像和生理数据 |
| BP4D+ | - | 单人 | 2D/3D视频、热成像、生理信号 | 仅单人采集，无双双人交互 |
| **Inter-Stance** | **45对** | **90人** | **2D/3D视频、热成像、语音、文本、PPG、EDA、HR、BP、RR** | **完整双人多模态采集** |
\n特别值得注意的是，BP4D系列虽然拥有丰富的传感器配置，但仅针对单人采集；而IEMOCAP等双人数据集又缺乏3D几何和热成像数据。Inter-Stance首次将两者结合，实现了真正的双人多模态同步采集。\n\n## 研究应用前景\n\nInter-Stance数据集的发布将为多个研究领域带来重要价值：\n\n### 1. 多模态立场检测\n传统的立场检测主要依赖文本数据（如社交媒体帖子），而Inter-Stance使研究者能够探索视觉、生理和语言信号如何协同表达立场。这对于开发更具社交感知能力的AI系统至关重要。\n\n### 2. 人际情感同步建模\n数据集的双人同步采集特性使研究者能够分析情感传染、行为模仿和生理同步等现象。这对于理解人类社交动态和发展情感计算模型具有深远意义。\n\n### 3. 社会信号处理\n通过分析同意、不同意和中立状态下的多模态行为模式，研究者可以识别出微妙的社交信号，这些信号往往是"诚实"的情感泄露，难以通过单一模态捕捉。\n\n### 4. 心理健康与社交障碍研究\n数据集中包含熟人和陌生人两种互动类型，为研究社交焦虑、抑郁症等心理障碍患者在不同社交情境下的行为特征提供了宝贵资源。\n\n## 技术挑战与方法论启示\n\nInter-Stance的发布也带来了新的技术挑战。如何有效融合20TB的多模态异构数据？如何建模双人之间的动态相互影响？如何从高维时序数据中提取具有判别性的立场特征？这些问题将推动多模态机器学习、图神经网络、时序建模等技术的发展。\n\n从方法论角度看，Inter-Stance强调了实验设计的重要性。研究团队通过精心设计的IRB批准方案，成功诱发了自然的立场相关行为，这为情感计算领域的数据采集提供了可借鉴的范式。\n\n## 结语\n\nInter-Stance数据集的发布标志着多模态社交交互研究进入了一个新阶段。通过提供前所未有的双人多模态数据资源，该数据集将推动计算社会科学、情感计算、人机交互等领域的发展，为构建更具社交感知能力的人工智能系统奠定数据基础。对于关注人类社交行为计算建模的研究者而言，这是一个不容错过的重要资源。