章节 01
导读:LLMs与格赖斯准则研究核心概览
本研究聚焦大语言模型(LLM)对语用学现象的理解能力,通过实验探究其对格赖斯会话准则的掌握程度。核心问题在于LLM是仅做统计模式匹配,还是具备真正的语用推理能力?研究以语用学为测试场,为评估LLM语言理解深度提供新视角,结果对AI评估、训练优化及人机交互设计具有重要参考价值。
正文
这是一个研究大语言模型是否具备对语用学现象敏感性的学术项目,通过实验探究LLM对格赖斯会话准则的理解程度,为评估模型的语言理解能力提供了新的视角。
章节 01
本研究聚焦大语言模型(LLM)对语用学现象的理解能力,通过实验探究其对格赖斯会话准则的掌握程度。核心问题在于LLM是仅做统计模式匹配,还是具备真正的语用推理能力?研究以语用学为测试场,为评估LLM语言理解深度提供新视角,结果对AI评估、训练优化及人机交互设计具有重要参考价值。
章节 02
大语言模型(LLM)在自然语言处理任务上取得显著成就,但根本性问题仍存:这些模型是否真正理解语言,还是仅进行统计层面的模式匹配?语用学作为语言学分支,研究语言在特定语境中的使用与理解,为评估LLM语言理解深度提供独特测试场。
格赖斯提出的会话准则(量、质、关系、方式准则)是语用学核心理论,遵守准则是人类有效沟通的基础。若LLM能理解并遵循这些准则,表明其具备一定语用推理能力。
章节 03
要求提供适量信息:既不超量也不不足。如被问“几点到?”,答“下午两点”恰当,答“两点零三分”或“下午”则违反。
要求说真话、不说缺乏证据的话,违反则意味着说谎或传播虚假信息。
要求内容切题相关,违反表现为答非所问、转移话题等。
要求表达清晰、有序,避免晦涩歧义,涉及语言表达的清晰度与组织性。
章节 04
包含三类测试用例:
采用多维度框架:准确率、准则区分度、上下文敏感性、跨语言一致性。
章节 05
正相关但非线性,部分技能有“涌现”特征,不同准则理解能力发展不均衡。
不同架构/训练策略的模型在语用任务上优势模式不同,为理解训练方法影响提供数据。
章节 06
传统评估侧重语法与语义,语用维度不足,全面评估应包含语用能力测试。
提升语用能力需增加语用推理样本(对话、多轮交互、隐含意义标注语料)。
理解LLM语用能力边界对设计更好的人机交互系统至关重要,需考虑模型处理隐含请求或委婉表达的能力。
章节 07