正文

EXIST 2026：融合眼动、心率和脑电信号的多模态性别歧视检测系统

结合眼动追踪、心率监测、EEG脑电与视觉语言模型的以人为本多模态性别歧视检测研究

多模态学习性别歧视检测眼动追踪EEG心率监测内容审核TikTok视觉语言模型AI安全

发布时间 2026/06/06 17:27最近活动 2026/06/06 17:57预计阅读 3 分钟

章节 01

【导读】EXIST2026：融合生理信号与视觉语言模型的多模态性别歧视检测系统

项目概况

原作者/维护者：ivanarcos02
来源平台：GitHub
发布时间：2026年6月
核心方向：EXIST 2026挑战赛“以人为本的多模态性别歧视检测”

核心创新

结合眼动追踪、心率监测、EEG脑电信号与视觉语言模型（VLM），构建多模态系统，通过人类生理认知反应辅助性别歧视内容检测，突破传统文本/图像分析局限。

应用场景

适用于TikTok等社交媒体平台的内容审核，探索AI安全领域“以人为本”的新范式。

章节 02

研究背景与问题定义

传统检测局限

传统性别歧视检测依赖文本分析或图像识别，忽略人类感知歧视内容时的真实生理和认知反应。

EXIST挑战赛背景

EXIST（Sexism Identification in Social Networks）是IberLEF系列评测任务，2026年方向聚焦“以人为本的多模态检测”，核心假设：人类观看歧视内容会产生可测量的生理反应，可作为检测信号。

问题核心

如何整合生理信号与AI模型，实现更精准、贴合人类感受的性别歧视检测？

章节 03

核心创新：多模态生理信号与VLM融合

生理信号采集

眼动追踪：分析注视点分布、扫视路径、瞳孔变化、回视行为，反映注意力分配与情绪唤醒。
心率监测：通过心率变异性（HRV）、心率加速、时序关联，捕捉自主神经系统反应。
EEG脑电：提取事件相关电位（ERP）、频谱特征、脑区激活，直接测量神经活动。

视觉语言模型（VLM）

整合CLIP/BLIP等模型，实现视频帧理解、跨模态对齐、上下文建模，提取视觉-语义特征。

融合逻辑

将生理信号与VLM特征结合，构建多模态检测系统，弥补单一模态不足。

章节 04

技术实现架构解析

预处理流水线

时间同步：对齐生理信号与视频时间轴
信号滤波：去除噪声与伪迹
特征提取：从原始信号中提取有效特征
数据清洗：处理缺失值与异常值

提示工程

设计提示模板，明确任务定义、细粒度标签（如直接歧视、微歧视）、上下文信息利用。

实验配置

提供超参数设置、训练策略、适用于性别歧视检测的评估指标。

章节 05

科学价值与实践意义

方法论创新

首次大规模将生理信号应用于社交媒体内容审核，开创“以人为本”的AI安全研究新范式，可推广至其他有害内容识别。

理论贡献

探索人类感知性别歧视的神经生理机制、人群差异、主观报告与客观指标的一致性。

实践价值

识别灰色地带内容
理解用户不适原因
优化内容推荐算法

章节 06

技术挑战与应对方案

数据对齐难题

不同模态采样率差异大（视频30fps/心率1Hz/EEG 1000Hz），解决方案：滑动窗口+插值技术统一时间网格。

个体差异

生理反应因人而异，解决方案：个体归一化+迁移学习，平衡泛化与个体差异。

数据稀疏性

标注生理数据稀缺，解决方案：半监督学习+数据增强，充分利用有限数据。

章节 07

伦理考量与数据隐私

知情同意

受试者需充分了解实验目的（含可能接触不适内容）并自愿参与。

数据隐私

生理数据（尤其是EEG）具有高识别性，需严格保护措施。

研究伦理

平衡研究价值与参与者心理影响，设置心理支持机制。

应用伦理

警惕技术滥用（如操纵情绪、不当审查），明确正当使用边界。

章节 08

未来方向与总结

未来发展

扩展模态：加入皮肤电反应（GSR）、面部表情识别、语音情感分析
实时检测：开发直播内容即时审核系统
跨平台/文化：验证方法在其他平台及不同文化背景的泛化性

总结

该研究突破传统内容审核范式，通过生理信号与AI融合，让系统更理解人类感受。为AI安全、内容平台审核提供新方向，技术可扩展至心理健康、教育等领域，前景广阔。