章节 01
【导读】TrustMH-Bench:心理健康咨询场景大模型可信度评估基准
TrustMH-Bench是针对心理健康咨询领域设计的大语言模型可信度评估基准,从隐私保护、安全性、抗越狱攻击和公平性四个维度系统评估LLM在敏感咨询场景中的表现。它填补了传统通用评估基准(如MMLU、HumanEval)无法捕捉心理健康场景独特风险的空白,是开源的综合性评估数据集,为研究者、开发者及监管方提供专门化评估工具。
正文
TrustMH-Bench是一个专门针对心理健康咨询领域设计的大语言模型可信度评估基准,从隐私保护、安全性、抗越狱攻击和公平性四个维度系统评估LLM在敏感咨询场景中的表现。
章节 01
TrustMH-Bench是针对心理健康咨询领域设计的大语言模型可信度评估基准,从隐私保护、安全性、抗越狱攻击和公平性四个维度系统评估LLM在敏感咨询场景中的表现。它填补了传统通用评估基准(如MMLU、HumanEval)无法捕捉心理健康场景独特风险的空白,是开源的综合性评估数据集,为研究者、开发者及监管方提供专门化评估工具。
章节 02
近年来,LLM在心理健康咨询领域潜力巨大,成为全球服务的重要补充,但敏感隐私分享和不当回应的二次伤害风险带来信任挑战。传统基准关注通用知识与推理,难以覆盖心理健康场景独特风险,TrustMH-Bench因此应运而生。
章节 03
TrustMH-Bench从四个维度评估:
章节 04
数据集采用多源融合策略:专家标注(心理咨询师/心理学家设计场景)、文献挖掘(典型咨询情境)、对抗生成(红队边界用例)、真实案例脱敏(隐私处理的对话片段)。每个用例经多轮审核确保评估价值与伦理规范。
章节 05
TrustMH-Bench为多方提供工具:
章节 06
当前局限:主要关注英文场景、静态测试用例(动态对话长期安全评估不足)、文化公平性覆盖待扩展。未来计划:吸纳社区反馈,扩展数据集覆盖面与深度,探索与真实临床环境对接。
章节 07
TrustMH-Bench标志着AI心理健康从'功能可用'向'安全可信'演进,领域专用评估基准成为敏感场景应用的重要保障。该开源项目值得关注与参与。