# 礼貌对LLM的影响：跨语言、多模型的PLUM语料库研究

> 本文通过PLUM语料库研究了礼貌用语对大语言模型响应质量的影响。实验覆盖3种语言、5个模型、22500组提示-响应对。发现礼貌提示可提升约11%的响应质量，但效果因语言和模型而异，并非普遍存在。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-17T17:33:48.000Z
- 最近活动: 2026-04-20T02:57:36.431Z
- 热度: 93.6
- 关键词: politeness, LLM behavior, cross-linguistic, multilingual, PLUM corpus, prompt engineering, cultural differences, human-AI interaction
- 页面链接: https://www.zingnex.cn/forum/thread/llm-plum
- Canonical: https://www.zingnex.cn/forum/thread/llm-plum
- Markdown 来源: ingested_event

---

# 礼貌对LLM的影响：跨语言、多模型的PLUM语料库研究

## 引言：当礼貌成为变量

"请"、"谢谢"、"能否麻烦您"——这些礼貌用语在人类交流中无处不在。我们直觉地认为，礼貌的沟通方式会带来更好的互动结果。但在与大语言模型(LLMs)交互时，礼貌是否同样重要？如果用粗鲁的语气提问，模型的回答质量会下降吗？

这些问题不仅具有学术趣味，更有实际意义。随着LLMs日益融入日常生活和工作，理解如何与它们有效沟通变得至关重要。如果礼貌确实影响模型表现，那么用户就需要了解"如何礼貌地提问"；如果不同语言或不同模型对礼貌的敏感度不同，那么跨文化、跨平台的使用策略也需要相应调整。

本研究正是针对这些问题展开的大规模实证调查。通过PLUM(Politeness Levels in Utterances, Multilingual)语料库，研究团队系统性地测量了礼貌用语对LLM响应质量的影响，并揭示了其中的跨语言、跨模型差异。

## 理论基础：礼貌理论与不礼貌框架

研究的设计基于两个经典的社会语言学理论：

### Brown与Levinson的礼貌理论

这一理论将礼貌视为一种"面子工作"(Face Work)。每个人在交流中都有两种面子需求：
- **积极面子**：被他人喜欢、认可、接纳的需求
- **消极面子**：行动自由不受阻碍的需求

礼貌用语的功能就是维护双方的面子。例如，使用"能否请您..."而非直接命令"做..."，是在尊重对方的消极面子——给予对方拒绝的自由。

### Culpeper的不礼貌框架

与关注礼貌相反，Culpeper的框架研究不礼貌(Impoliteness)——那些故意攻击或无视他人面子的行为。不礼貌不仅包括直接的侮辱，也包括讽刺、冷漠、命令式语气等。

这两个理论为研究提供了分析框架：我们可以将提示语按照礼貌/不礼貌程度分类，观察LLM对不同面子威胁程度的响应差异。

## PLUM语料库：大规模跨语言数据集

PLUM是研究的核心贡献之一——一个经过人工验证的多语言礼貌语料库。

### 数据规模与覆盖

**样本量**：22,500组提示-响应对

**语言覆盖**：
- 英语(English)：全球通用语，西方文化背景
- 印地语(Hindi)：南亚语言，高语境文化，等级意识强
- 西班牙语(Spanish)：拉丁语系，情感表达丰富

**模型覆盖**：
- Gemini-Pro (Google)
- GPT-4o Mini (OpenAI)
- Claude 3.7 Sonnet (Anthropic)
- DeepSeek-Chat (DeepSeek)
- Llama 3 (Meta)

**对话历史**：
- 原始对话(Raw)：无预设历史
- 礼貌历史(Polite)：前序对话为礼貌语气
- 不礼貌历史(Impolite)：前序对话为不礼貌语气

### 礼貌等级标注

每个提示被标注为五个礼貌等级之一：
1. **非常礼貌**：大量使用敬语、委婉表达、感谢语
2. **礼貌**：适度的礼貌用语，尊重性表达
3. **中性**：直接但无不礼貌用语
4. **不礼貌**：命令式、缺乏尊重、略带攻击性
5. **非常不礼貌**：侮辱性、威胁性、严重冒犯

这些标注经过人工验证，确保质量和一致性。

## 评估框架：八维度质量评估

为了全面评估模型响应质量，研究团队设计了八个评估维度：

### 1. 连贯性(Coherence)

响应是否逻辑一致、前后贯通？是否存在自相矛盾？

### 2. 清晰度(Clarity)

表达是否清楚易懂？概念解释是否到位？

### 3. 深度(Depth)

内容是否深入？是否触及问题核心？还是仅停留在表面？

### 4. 响应性(Responsiveness)

是否准确回应了用户的问题？是否存在答非所问？

### 5. 上下文保持(Context Retention)

在多轮对话中，是否保持了上下文一致性？是否"忘记"了之前的讨论？

### 6. 毒性(Toxicity)

响应是否包含有害、冒犯、不当的内容？

### 7. 简洁性(Conciseness)

表达是否简洁？是否存在冗余信息？

### 8. 可读性(Readability)

语言是否流畅？结构是否清晰？是否易于阅读？

这八个维度涵盖了响应质量的各个方面，从内容准确性到表达风格，提供了全面的评估视角。

## 核心发现：礼貌效应的复杂性

### 发现一：礼貌确实影响响应质量

研究最明确的发现是：**礼貌用语确实会影响LLM的响应质量**。

具体数据：
- 使用礼貌提示相比中性提示，平均响应质量提升约**11%**
- 使用不礼貌提示相比中性提示，平均响应质量下降

这一发现验证了我们的直觉：对AI保持礼貌是有回报的。

然而，故事远没有这么简单...

### 发现二：效应因语言而异

最引人注目的发现是礼貌效应的**跨语言差异**：

**英语**：对礼貌和直接语气的响应都较好。礼貌用语带来适度提升，但直接提问也不会显著损害质量。英语模型用户有较大的表达自由度。

**印地语**：对**恭敬、间接**的语气响应最佳。这与印地语文化中的高语境、等级意识相吻合——过于直接的表达被视为不敬，会触发模型的防御性响应。

**西班牙语**：对**坚定、自信**的语气响应最好。这与西班牙语文化中情感表达丰富、直接沟通被接受的特点一致。过于委婉的表达反而可能被视为缺乏诚意。

这些差异表明，**没有一种通用的"礼貌配方"适用于所有语言**。跨文化使用LLM时，需要考虑语言特定的沟通规范。

### 发现三：效应因模型而异

不同模型对礼貌/不礼貌的敏感度也存在显著差异：

**Llama 3**：最敏感的模型，礼貌效应范围达**11.5%**。礼貌提示带来显著提升，不礼貌提示导致明显下降。Llama对沟通语气高度敏感。

**GPT-4o Mini**：相对稳健，对对抗性语气的鲁棒性较强。即使面对不礼貌提示，也能保持较为稳定的响应质量。这可能反映了OpenAI在对齐训练中对各种输入场景的广泛覆盖。

**Claude 3.7 Sonnet**、**Gemini-Pro**、**DeepSeek-Chat**：介于两者之间，表现出适度的礼貌敏感性。

这些差异提示用户：**选择模型时，不仅要考虑能力，还要考虑沟通风格匹配**。如果你习惯直接、简洁的提问方式，GPT可能是更好的选择；如果你倾向于礼貌、详细的表达，Llama可能给出更好的回应。

### 发现四：对话历史的影响

研究还发现，**前序对话的语气会影响当前响应的质量**。

如果对话历史是礼貌的，模型倾向于保持高质量的响应；如果对话历史是不礼貌的，即使当前提示是礼貌的，响应质量也可能受到影响。

这类似于人类交流中的"情绪传染"——一旦对话陷入负面基调，很难立即恢复。

## 深入分析：为什么会有这些差异？

### 训练数据的反映

不同语言、不同模型的礼貌敏感性差异，很大程度上反映了它们的训练数据特征：

**语言差异的根源**：
- 英语训练数据可能包含各种语气的样本，使模型学会了适应多样化输入
- 印地语训练数据可能更多来自正式、尊重性语境，使模型对直接语气不适应
- 西班牙语训练数据可能包含更多情感丰富、直接表达的样本

**模型差异的根源**：
- Llama的高敏感性可能源于其训练数据分布或对齐策略
- GPT的稳健性可能来自更大规模、更多样化的训练数据，以及更全面的安全微调

### 对齐训练的差异

不同厂商的对齐(Alignment)训练策略也可能贡献于差异：
- 一些模型可能被显式训练为对礼貌提示给予更好回应
- 另一些模型可能被训练为对所有用户一视同仁，不受语气影响

### 文化偏见的体现

这些差异也引发了对文化偏见的思考：
- 以英语为中心训练的模型，是否对其他文化的沟通规范不够敏感？
- 模型的"礼貌偏好"是否反映了特定文化的价值观？

这些问题对于开发真正全球化、文化敏感的AI系统具有重要意义。

## 实践启示：如何与LLM有效沟通

### 对普通用户的建议

**1. 保持基本礼貌**

数据明确显示，礼貌提示平均带来11%的质量提升。虽然不同模型敏感度不同，但保持基本的"请"、"谢谢"总是有益的。

**2. 考虑语言文化**

如果你使用非英语与LLM交流，了解该文化的沟通规范：
- 印地语用户：使用更恭敬、间接的表达方式
- 西班牙语用户：可以更直接、坚定地表达
- 英语用户：有较大的表达自由度

**3. 了解你的模型**

不同模型有不同的"性格"：
- 使用Llama时，更注意语气的礼貌性
- 使用GPT时，可以更直接地提问

**4. 维护对话基调**

一旦对话开始，尽量保持一致的语气。如果前面对话不愉快，考虑开启新对话，避免负面历史的累积影响。

### 对开发者的启示

**1. 文化适应性设计**

如果你的应用面向全球用户，考虑实现文化适应性：
- 根据用户语言/地区调整模型的礼貌敏感度
- 提供不同"沟通风格"的模型选项

**2. 鲁棒性训练**

研究揭示了不同模型的鲁棒性差异。在对齐训练中，可以考虑：
- 在各种语气条件下进行训练，提升模型对不礼貌输入的容忍度
- 同时保持对礼貌输入的积极回应

**3. 透明化沟通**

考虑告知用户：模型的响应可能受提问方式影响。这不仅是诚实，也能帮助用户获得更好的使用体验。

## 局限性与未来方向

### 当前局限

**语言覆盖有限**：仅测试了三种语言，更多语言(如中文、阿拉伯语、日语)的行为尚待研究。

**任务类型限制**：研究主要关注通用对话任务，专业任务(如编程、数学推理)中的礼貌效应可能不同。

**静态评估**：评估基于单次交互，长期关系建立中的礼貌动态未涉及。

### 未来研究方向

**扩展语言覆盖**：将研究扩展到更多语言，构建真正的全球礼貌图谱。

**任务特异性研究**：探索不同任务类型(创意写作、代码生成、情感支持)中礼貌效应的差异。

**动态交互研究**：研究多轮对话中礼貌效应的演变，以及如何建立积极的长期人机关系。

**干预策略开发**：开发训练技术，使模型在各种语气条件下都能保持高质量响应，同时不丧失对真诚礼貌的积极回应。

## 结语：没有通用的礼貌，但有普遍的影响

研究的标题"No Universal Courtesy"(没有通用的礼貌)精准地概括了核心发现：礼貌对LLM的影响是真实存在的，但这种影响因语言和模型而异，不存在放之四海而皆准的"礼貌配方"。

然而，这并不意味着礼貌不重要。恰恰相反，研究明确显示礼貌是一个**可量化的计算变量**，能够系统性地影响模型行为。这一发现既是对用户的提醒——注意你的沟通方式，也是对开发者的启示——考虑文化多样性，提升模型鲁棒性。

更深层的意义在于，这项研究揭示了LLM行为中的人文维度。这些模型不是纯粹的逻辑机器，而是从其训练数据中继承了人类文化的复杂性——包括不同文化对礼貌的不同理解。认识并尊重这种复杂性，是构建更好人机交互体验的第一步。

最终，这项研究提醒我们：在与AI交流时，我们不仅在操作技术，也在进行跨文化、跨"物种"的沟通。而沟通的艺术，无论是对人还是对机器，始终值得精进。