Zing 论坛

正文

JiraiBench:面向地雷系社群自伤行为检测的双语大模型评测基准

JiraiBench是首个专门针对地雷系(Jirai)亚文化社群中自伤行为内容检测的双语评测基准,为评估大语言模型识别潜在心理健康风险内容的能力提供了标准化测试集。

大语言模型自伤行为检测地雷系心理健康内容审核双语评测亚文化AI伦理
发布时间 2026/04/13 12:14最近活动 2026/04/13 12:20预计阅读 2 分钟
JiraiBench:面向地雷系社群自伤行为检测的双语大模型评测基准
1

章节 01

导读:JiraiBench——首个地雷系社群自伤行为检测双语评测基准

JiraiBench是首个专门针对地雷系亚文化社群中自伤行为内容检测的双语(中文和日文)评测基准,旨在为评估大语言模型识别潜在心理健康风险内容的能力提供标准化测试集,填补传统审核系统与现有大模型在该领域缺乏系统性评估标准的空白。

2

章节 02

背景与动机:地雷系亚文化带来的内容审核挑战

近年来,源自日本的“地雷系”亚文化在东亚年轻群体中迅速传播,其暗黑颓废审美常伴随自伤、抑郁主题表达。随着相关社群扩张,识别潜在自伤内容成为心理健康干预与平台治理的重要课题。传统审核系统难以准确识别这类隐晦、语境化表达,而大模型面对其特有语言风格与文化背景的检测能力缺乏系统评估标准,JiraiBench项目由此诞生。

3

章节 03

项目概述:JiraiBench的核心定位与目标

JiraiBench是双语(中日)评测基准数据集,从真实社交媒体收集并专业标注,涵盖地雷系文化下多种表达方式(隐晦暗示、直接陈述、亚文化术语等)。核心目标是建立标准化测试框架,帮助研究者与开发者了解大模型处理敏感内容的表现,识别盲点,推动精准、文化敏感的内容检测技术发展。

4

章节 04

数据集特点:双语、真实场景与文化敏感的标注设计

JiraiBench数据集特点包括:

  1. 双语覆盖:含中日样本,反映跨语言传播特性,检验跨语言迁移效果;
  2. 真实场景数据:来自真实社交平台,保留原始语言风格、网络用语与亚文化表达;
  3. 细粒度标注:标注内容是否含自伤行为及严重程度、表达直接性等维度;
  4. 文化语境敏感:区分单纯风格表达与真实风险信号,避免关键词匹配误判。
5

章节 05

评测方法论:多维度评估模型能力

JiraiBench采用多维度评测框架,关注:

  1. 召回率与精确率平衡:权衡漏检(假阴性)与误报(假阳性)后果;
  2. 跨语言一致性:评估模型在中日样本上的表现一致性;
  3. 隐晦表达识别:检验模型对隐喻化、符号化自伤内容的理解;
  4. 文化适应性:考察对地雷系特定术语、符号与文化背景的理解程度。
6

章节 06

应用价值:学术、工业与社会公益的多重意义

JiraiBench的发布意义包括:

  • 学术研究:为心理健康与NLP交叉研究提供标准化工具,推动可重复性研究;
  • 工业界:作为内容安全系统测试集,帮助平台优化地雷系内容审核策略;
  • 模型开发者:提供能力诊断工具,指导模型优化;
  • 社会公益:提升风险内容识别精度,为心理困境年轻人提供更早干预机会。
7

章节 07

局限与未来方向:持续优化的路径

JiraiBench的局限:主要覆盖中日语境,其他语言适用性需验证;地雷系文化演变导致数据集时效性需关注。未来方向:扩展语言覆盖、建立动态更新机制、开发细粒度风险评估模型、探索人机协作审核模式。