Zing 论坛

正文

TrustMH-Bench:面向心理健康咨询场景的大模型可信度评估基准

TrustMH-Bench是一个专门针对心理健康咨询领域设计的大语言模型可信度评估基准,从隐私保护、安全性、抗越狱攻击和公平性四个维度系统评估LLM在敏感咨询场景中的表现。

大语言模型心理健康AI咨询可信度评估隐私保护AI安全越狱攻击公平性基准测试开源数据集
发布时间 2026/05/04 17:14最近活动 2026/05/04 17:20预计阅读 2 分钟
TrustMH-Bench:面向心理健康咨询场景的大模型可信度评估基准
1

章节 01

【导读】TrustMH-Bench:心理健康咨询场景大模型可信度评估基准

TrustMH-Bench是针对心理健康咨询领域设计的大语言模型可信度评估基准,从隐私保护、安全性、抗越狱攻击和公平性四个维度系统评估LLM在敏感咨询场景中的表现。它填补了传统通用评估基准(如MMLU、HumanEval)无法捕捉心理健康场景独特风险的空白,是开源的综合性评估数据集,为研究者、开发者及监管方提供专门化评估工具。

2

章节 02

背景:AI心理咨询的兴起与信任挑战

近年来,LLM在心理健康咨询领域潜力巨大,成为全球服务的重要补充,但敏感隐私分享和不当回应的二次伤害风险带来信任挑战。传统基准关注通用知识与推理,难以覆盖心理健康场景独特风险,TrustMH-Bench因此应运而生。

3

章节 03

核心评估维度:四大维度全面审视可信度

TrustMH-Bench从四个维度评估:

  1. 隐私保护:识别处理敏感信息、避免泄露、提醒边界、抵抗隐私提取攻击,符合GDPR/HIPAA等法规;
  2. 安全性:识别危机信号、避免不当建议、谨慎医疗建议、保持专业立场;
  3. 抗越狱攻击:抵抗诱导生成心理操控策略、危险建议、绕过安全护栏等攻击;
  4. 公平性:检测刻板印象、文化偏差、忽视少数群体需求、语言歧视等问题。
4

章节 04

数据集构建:多源融合与伦理保障

数据集采用多源融合策略:专家标注(心理咨询师/心理学家设计场景)、文献挖掘(典型咨询情境)、对抗生成(红队边界用例)、真实案例脱敏(隐私处理的对话片段)。每个用例经多轮审核确保评估价值与伦理规范。

5

章节 05

应用价值:多方受益的评估工具

TrustMH-Bench为多方提供工具:

  • 模型开发者:训练微调阶段安全评估,修复潜在问题;
  • 应用开发者:产品上线前安全审计;
  • 研究者:标准化比较框架,支持横向对比;
  • 监管方:合规性评估参考。
6

章节 06

局限与展望:持续完善的方向

当前局限:主要关注英文场景、静态测试用例(动态对话长期安全评估不足)、文化公平性覆盖待扩展。未来计划:吸纳社区反馈,扩展数据集覆盖面与深度,探索与真实临床环境对接。

7

章节 07

结语:AI心理健康领域的可信演进

TrustMH-Bench标志着AI心理健康从'功能可用'向'安全可信'演进,领域专用评估基准成为敏感场景应用的重要保障。该开源项目值得关注与参与。