Zing 论坛

正文

提示词礼貌程度对国产大模型输出的影响:一项系统性实验研究

本文介绍了一项针对国产大语言模型的实验研究,探讨提示词礼貌程度对模型输出结果的影响。研究团队通过九轮迭代实验,对比了不同礼貌等级提示词下 DeepSeek、豆包、通义千问等模型的作答表现,发现礼貌程度可能显著影响模型的正确率、拒答率和输出稳定性。

大语言模型提示工程礼貌提示国产模型DeepSeek豆包通义千问模型评测提示词优化
发布时间 2026/04/10 02:06最近活动 2026/04/10 02:18预计阅读 2 分钟
提示词礼貌程度对国产大模型输出的影响:一项系统性实验研究
1

章节 01

导读:提示词礼貌程度对国产大模型输出的影响研究

本文针对国产大语言模型开展系统性实验,探讨提示词礼貌程度对模型输出的影响。研究团队通过九轮迭代实验,对比DeepSeek、豆包、通义千问等模型在不同礼貌等级提示词下的表现,发现礼貌程度可能显著影响模型的正确率、拒答率和输出稳定性。本研究旨在填补中文语境下国产模型相关研究空白,为提示工程实践提供实证依据。

2

章节 02

研究背景与动机

研究背景与动机

在人机对话中,用户常使用礼貌用语,但这些用语是否影响模型输出质量尚不明确。此前跨语言研究表明礼貌程度可能影响模型性能,但针对国产大语言模型的系统性研究仍缺乏。本研究聚焦中文语境,探索礼貌提示词对国产模型输出的系统性影响,以填补这一空白。

3

章节 03

实验设计与方法

实验设计与方法

模型选择

  • DeepSeek:推理能力见长的开源模型
  • 豆包(Doubao):字节跳动对话模型
  • 通义千问(Qwen):阿里巴巴大语言模型系列

实验流程

  • 题库构建:以中文客观题为主,使用GAOKAO-Bench等权威数据集
  • 提示词设计:不同礼貌等级版本(直接命令式到高度礼貌式)
  • 重复实验:每个题目-模型-礼貌等级组合多次测试
  • 结果抽取与统计:自动化脚本抽取答案,采用配对t检验评估显著性

技术实现

基于Python 3.10+开发,依赖openairequestspandas,通过api_keys.json配置模型接入信息。

4

章节 04

九轮迭代实验的演进

九轮迭代实验的演进

  • 探索期(1-5次):搭建框架、调整提示词设计、优化题库
  • 扩展期(6-8次):扩展到多模型,发现模型响应速度和输出特征差异
  • 深化期(9次):规模最大的一轮,完成DeepSeek完整实验及豆包、通义千问部分测试
5

章节 05

初步发现与挑战

初步发现与挑战

主要发现

  • 礼貌提示影响模型输出,但方向和程度因模型而异:部分模型高礼貌提示下正确率更高,部分则输出冗长
  • 答案抽取鲁棒性是关键挑战:礼貌提示导致更长推理过程,增加自动化抽取难度
  • 模型响应特性差异显著:如生成速度差异影响大规模实验可行性

技术挑战

  • 题库质量控制:早期存在人工改写、题型不一致等问题
  • 结果提取准确性:自动化抽取曾出现误提取和漏提取
  • 超时与截断:礼貌提示增加输出长度导致API超时或响应截断
6

章节 06

对提示工程实践的启示

对提示工程实践的启示

  • 提示词设计需系统性思考:礼貌用语可能是影响模型行为的实质性因素
  • 模型选择结合具体场景:不同模型对提示词变化敏感性不同
  • 评估流程需鲁棒:提示词变化导致输出格式变化时,答案抽取逻辑需调整
7

章节 07

未来工作方向

未来工作方向

  • 完善实验覆盖:完成豆包和通义千问完整实验
  • 提升题库质量:清洗验证题库,确保题目、材料、标准答案一致性
  • 深化统计分析:探索礼貌程度影响模型输出的潜在机制
  • 扩展研究范围:探索提示词其他特征(如具体性、情感色彩)的影响