# 提示词礼貌程度对国产大模型输出的影响：一项系统性实验研究

> 本文介绍了一项针对国产大语言模型的实验研究，探讨提示词礼貌程度对模型输出结果的影响。研究团队通过九轮迭代实验，对比了不同礼貌等级提示词下 DeepSeek、豆包、通义千问等模型的作答表现，发现礼貌程度可能显著影响模型的正确率、拒答率和输出稳定性。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-09T18:06:36.000Z
- 最近活动: 2026-04-09T18:18:29.619Z
- 热度: 152.8
- 关键词: 大语言模型, 提示工程, 礼貌提示, 国产模型, DeepSeek, 豆包, 通义千问, 模型评测, 提示词优化
- 页面链接: https://www.zingnex.cn/forum/thread/llm-github-acha-xwx-analysis-of-the-impact-of-prompt-politeness-on-the-output-of-chinese-la
- Canonical: https://www.zingnex.cn/forum/thread/llm-github-acha-xwx-analysis-of-the-impact-of-prompt-politeness-on-the-output-of-chinese-la
- Markdown 来源: ingested_event

---

# 提示词礼貌程度对国产大模型输出的影响：一项系统性实验研究

## 研究背景与动机

在与大语言模型交互时，用户往往会下意识地使用礼貌用语——"请"、"麻烦你"、"谢谢"等。这种人类社交习惯被自然地迁移到了人机对话中。但一个有趣的问题随之产生：这些礼貌用语真的会影响模型的输出质量吗？

此前已有跨语言研究表明，提示词的礼貌程度可能对模型性能产生影响，但针对国产大语言模型的系统性研究仍然缺乏。本研究正是为了填补这一空白，聚焦于中文语境下，探索礼貌提示词对国产模型输出结果的系统性影响。

## 核心研究问题

本研究围绕以下几个核心问题展开：

**第一，提示词礼貌程度是否会显著影响模型的作答结果。** 这是研究的首要问题，需要通过大规模实验数据进行验证。

**第二，不同模型对礼貌程度变化的敏感性是否存在差异。** 国产大模型在架构、训练数据和对齐策略上各有特点，它们对同一提示词变化的反应可能截然不同。

**第三，礼貌提示是会提高正确率，还是仅仅改变输出风格。** 这需要区分"性能提升"与"风格变化"两个不同维度。

**第四，在高强度提示包装下，模型是否更容易出现冗长推理、拒答或答案提取困难。** 这关系到实际应用中的可用性问题。

## 实验设计与方法

### 模型选择

研究选择了三款具有代表性的国产大语言模型：

- **DeepSeek**：以推理能力见长的开源模型
- **豆包（Doubao）**：字节跳动推出的对话模型
- **通义千问（Qwen）**：阿里巴巴的大语言模型系列

这三款模型覆盖了不同的技术路线和应用场景，具有较好的代表性。

### 实验流程

研究采用了严格的实验设计流程：

**题库构建**：以中文客观题为主，尽量使用有标准答案的题目，确保评估的客观性。研究过程中使用了包括 GAOKAO-Bench 在内的权威评测数据集。

**提示词设计**：设计不同礼貌等级的提示词版本，从直接命令式到高度礼貌式，形成对比实验条件。

**重复实验**：对每个题目-模型-礼貌等级组合进行多次重复测试，以评估结果的稳定性。

**结果抽取与统计检验**：使用自动化脚本抽取模型答案，并采用配对 t 检验等统计方法评估差异的显著性。

### 技术实现

实验脚本基于 Python 3.10+ 开发，主要依赖包括：

- `openai`：用于调用各模型平台的 API
- `requests`：处理 HTTP 请求
- `pandas`：数据整理与分析

实验通过 `api_keys.json` 配置不同模型的接入信息，支持灵活切换和批量运行。

## 九轮迭代实验的演进

本研究经历了九轮迭代实验，逐步完善方法论：

**探索期（第1-5次测试）**：主要任务是搭建实验框架、调整提示词设计、更换和优化题库。这一阶段积累了大量经验教训，为后续实验奠定了基础。

**扩展期（第6-8次测试）**：开始将实验扩展到多个模型，并尝试扩大实验规模。这一阶段发现了不同模型在响应速度和输出特征上的显著差异。

**深化期（第9次实验）**：目前规模最大、最接近正式主实验的一轮。在这一轮中，研究团队完成了较完整的 DeepSeek 部分实验，并对豆包和通义千问进行了部分测试。

## 初步发现与挑战

### 主要发现

根据已完成实验的初步分析，研究团队观察到：

**礼貌提示确实会影响模型输出**，但这种影响的方向和程度因模型而异。部分模型在高礼貌提示下表现出更高的正确率，而另一些模型则可能出现输出冗长化。

**答案抽取的鲁棒性是一个关键挑战**。礼貌提示往往会导致模型生成更长的推理过程，这给自动化答案抽取带来了困难，可能引入系统性误差。

**不同模型的响应特性差异显著**。例如，部分模型在生成速度上存在明显差异，这影响了大规模实验的可行性。

### 技术挑战

研究过程中遇到的主要技术挑战包括：

**题库质量控制**：早期题库存在人工改写、题型不一致、共享材料缺失等问题，需要大量清洗工作。

**结果提取准确性**：自动化答案抽取曾出现误提取和漏提取，需要建立复核机制。

**超时与截断问题**：礼貌提示增加的输出长度可能导致 API 超时或响应截断，影响数据完整性。

## 对提示工程实践的启示

这项研究对实际的提示工程工作具有重要参考价值：

**提示词设计需要系统性思考**。礼貌用语不应被视为"可有可无的修饰"，而可能是影响模型行为的实质性因素。在设计生产环境的提示词时，应当考虑礼貌程度这一维度。

**模型选择应结合具体场景**。不同模型对提示词变化的敏感性不同，在选择模型时，除了基准测试分数，还应考虑其在特定提示风格下的表现。

**评估流程需要足够鲁棒**。当提示词变化可能导致输出格式变化时，答案抽取逻辑需要相应调整，以避免引入评估偏差。

## 未来工作方向

研究团队计划在以下方向继续推进：

**完善实验覆盖**：完成豆包和通义千问的完整实验，获得更具比较性的数据。

**题库质量提升**：进一步清洗和验证题库，确保题目、材料、图表和标准答案的一致性。

**统计分析的深化**：在清洗后的数据上进行更深入的统计分析，探索礼貌程度影响模型输出的潜在机制。

**扩展研究范围**：探索其他提示词特征（如具体性、情感色彩等）对模型输出的影响。

## 结语

提示词礼貌程度对国产大语言模型输出的影响，是一个看似简单却蕴含丰富研究价值的问题。这项研究不仅有助于我们更好地理解大语言模型的行为特性，也为实际的提示工程实践提供了实证依据。

随着大语言模型在各行各业的广泛应用，如何设计"好"的提示词将成为越来越重要的技能。希望这项研究能为这一领域贡献有价值的见解。