正文

AI能当医生吗？临床LLM的共情能力、可读性与对齐性研究

研究对通用和领域专用LLM在医疗场景中的沟通能力进行多维度评估，发现基础模型情感极性放大、语言复杂度过高。虽然共情提示能降低负面情感和阅读难度，但协作重写策略在语义保真度、可读性和情感调节上表现最优。研究表明LLM更适合作为临床沟通的增强工具而非替代方案。

医疗AI临床LLM医患沟通共情能力可读性语义对齐人机协作医疗伦理患者体验

发布时间 2026/04/23 01:17最近活动 2026/04/23 10:54预计阅读 2 分钟

章节 01

【导读】AI能当医生吗？临床LLM的角色定位与能力评估

本文围绕"AI能否成为医生"这一核心问题，对通用及医疗专用LLM在医患沟通场景中的表现进行多维度评估。研究发现当前LLM存在情感极性放大、语言复杂度过高等问题，但通过协作重写策略可有效优化。最终结论指出：LLM更适合作为临床沟通的增强工具，而非替代医生的角色。

章节 02

大语言模型正快速进入医疗场景（症状自查、用药指导等），但AI与患者沟通是否符合临床标准这一问题尚未充分解答。本研究旨在系统评估通用及医疗专用LLM在真实医患交互中的表现，揭示其能力边界与局限。

章节 03

研究采用三维评估体系衡量AI与临床标准的对齐程度：

章节 04

基准问题：

情感极性放大：基础模型负面情感占比（43.14%-45.10%）高于医生（37.25%），易加剧患者焦虑；
语言复杂度过高：GPT-5/Claude输出FKGL达16.91-17.60级（研究生水平），医生回复为11.47-12.50级（高中高年级）。 优化策略：
共情提示：减少极端负面情感、降低阅读难度，但语义保真度无显著提升；
协作重写（重述模式）：语义相似度最高（平均0.93）、可读性改善、情感极值有效控制。

章节 05

医生视角：AI在医学准确性、临床推理、诊疗建议合理性上均不及真实医生，强调AI辅助定位； 患者视角：更偏爱经过重写的AI回复，认为其清晰度和情感基调更令人满意。

章节 06

综合研究发现，LLM在医疗场景中最有效角色是协作式沟通增强器，而非临床专业知识替代者。功能定位上，AI应专注改善沟通质量效率，而非取代医生诊断决策权；理想模式为医生提供专业判断，AI协助优化表达方式。

章节 07

对开发者和部署者的建议：

章节 08

局限：