正文

提示词礼貌程度对国产大模型输出的影响：一项系统性实验研究

本文介绍了一项针对国产大语言模型的实验研究，探讨提示词礼貌程度对模型输出结果的影响。研究团队通过九轮迭代实验，对比了不同礼貌等级提示词下 DeepSeek、豆包、通义千问等模型的作答表现，发现礼貌程度可能显著影响模型的正确率、拒答率和输出稳定性。

大语言模型提示工程礼貌提示国产模型DeepSeek豆包通义千问模型评测提示词优化

发布时间 2026/04/10 02:06最近活动 2026/04/10 02:18预计阅读 2 分钟

章节 01

导读：提示词礼貌程度对国产大模型输出的影响研究

本文针对国产大语言模型开展系统性实验，探讨提示词礼貌程度对模型输出的影响。研究团队通过九轮迭代实验，对比DeepSeek、豆包、通义千问等模型在不同礼貌等级提示词下的表现，发现礼貌程度可能显著影响模型的正确率、拒答率和输出稳定性。本研究旨在填补中文语境下国产模型相关研究空白，为提示工程实践提供实证依据。

章节 02

研究背景与动机

在人机对话中，用户常使用礼貌用语，但这些用语是否影响模型输出质量尚不明确。此前跨语言研究表明礼貌程度可能影响模型性能，但针对国产大语言模型的系统性研究仍缺乏。本研究聚焦中文语境，探索礼貌提示词对国产模型输出的系统性影响，以填补这一空白。

章节 03

实验设计与方法

模型选择

DeepSeek：推理能力见长的开源模型
豆包（Doubao）：字节跳动对话模型
通义千问（Qwen）：阿里巴巴大语言模型系列

实验流程

题库构建：以中文客观题为主，使用GAOKAO-Bench等权威数据集
提示词设计：不同礼貌等级版本（直接命令式到高度礼貌式）
重复实验：每个题目-模型-礼貌等级组合多次测试
结果抽取与统计：自动化脚本抽取答案，采用配对t检验评估显著性

技术实现

基于Python 3.10+开发，依赖openai、requests、pandas，通过api_keys.json配置模型接入信息。

章节 04

九轮迭代实验的演进

探索期（1-5次）：搭建框架、调整提示词设计、优化题库
扩展期（6-8次）：扩展到多模型，发现模型响应速度和输出特征差异
深化期（9次）：规模最大的一轮，完成DeepSeek完整实验及豆包、通义千问部分测试

章节 05

初步发现与挑战

主要发现

礼貌提示影响模型输出，但方向和程度因模型而异：部分模型高礼貌提示下正确率更高，部分则输出冗长
答案抽取鲁棒性是关键挑战：礼貌提示导致更长推理过程，增加自动化抽取难度
模型响应特性差异显著：如生成速度差异影响大规模实验可行性

技术挑战

题库质量控制：早期存在人工改写、题型不一致等问题
结果提取准确性：自动化抽取曾出现误提取和漏提取
超时与截断：礼貌提示增加输出长度导致API超时或响应截断

章节 06

对提示工程实践的启示

提示词设计需系统性思考：礼貌用语可能是影响模型行为的实质性因素
模型选择结合具体场景：不同模型对提示词变化敏感性不同
评估流程需鲁棒：提示词变化导致输出格式变化时，答案抽取逻辑需调整

章节 07

未来工作方向

完善实验覆盖：完成豆包和通义千问完整实验
提升题库质量：清洗验证题库，确保题目、材料、标准答案一致性
深化统计分析：探索礼貌程度影响模型输出的潜在机制
扩展研究范围：探索提示词其他特征（如具体性、情感色彩）的影响

提示词礼貌程度对国产大模型输出的影响：一项系统性实验研究

导读：提示词礼貌程度对国产大模型输出的影响研究

研究背景与动机

研究背景与动机

实验设计与方法

实验设计与方法

模型选择

实验流程

技术实现

九轮迭代实验的演进

九轮迭代实验的演进

初步发现与挑战

初步发现与挑战

主要发现

技术挑战

对提示工程实践的启示

对提示工程实践的启示

未来工作方向

未来工作方向

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统

LLM-assisted-analysis：用大模型检测智能合约逻辑漏洞的新思路

Azure GPU 虚拟机实战：4x V100 本地部署 70B+ 大模型的完整方案