章节 01
导读:JiraiBench——首个地雷系社群自伤行为检测双语评测基准
JiraiBench是首个专门针对地雷系亚文化社群中自伤行为内容检测的双语(中文和日文)评测基准,旨在为评估大语言模型识别潜在心理健康风险内容的能力提供标准化测试集,填补传统审核系统与现有大模型在该领域缺乏系统性评估标准的空白。
正文
JiraiBench是首个专门针对地雷系(Jirai)亚文化社群中自伤行为内容检测的双语评测基准,为评估大语言模型识别潜在心理健康风险内容的能力提供了标准化测试集。
章节 01
JiraiBench是首个专门针对地雷系亚文化社群中自伤行为内容检测的双语(中文和日文)评测基准,旨在为评估大语言模型识别潜在心理健康风险内容的能力提供标准化测试集,填补传统审核系统与现有大模型在该领域缺乏系统性评估标准的空白。
章节 02
近年来,源自日本的“地雷系”亚文化在东亚年轻群体中迅速传播,其暗黑颓废审美常伴随自伤、抑郁主题表达。随着相关社群扩张,识别潜在自伤内容成为心理健康干预与平台治理的重要课题。传统审核系统难以准确识别这类隐晦、语境化表达,而大模型面对其特有语言风格与文化背景的检测能力缺乏系统评估标准,JiraiBench项目由此诞生。
章节 03
JiraiBench是双语(中日)评测基准数据集,从真实社交媒体收集并专业标注,涵盖地雷系文化下多种表达方式(隐晦暗示、直接陈述、亚文化术语等)。核心目标是建立标准化测试框架,帮助研究者与开发者了解大模型处理敏感内容的表现,识别盲点,推动精准、文化敏感的内容检测技术发展。
章节 04
JiraiBench数据集特点包括:
章节 05
JiraiBench采用多维度评测框架,关注:
章节 06
JiraiBench的发布意义包括:
章节 07
JiraiBench的局限:主要覆盖中日语境,其他语言适用性需验证;地雷系文化演变导致数据集时效性需关注。未来方向:扩展语言覆盖、建立动态更新机制、开发细粒度风险评估模型、探索人机协作审核模式。