# LLM自动评分系统的鲁棒性研究：对抗构造无关因素的实证分析

> 本文深入分析了一项关于大语言模型自动评分系统鲁棒性的最新研究，探讨了LLM评分系统在面对无意义文本填充、拼写错误、写作复杂度变化以及离题回答等构造无关因素时的表现。研究发现，与传统评分系统不同，LLM系统对文本重复具有独特的惩罚机制，同时对离题内容表现出高度敏感性。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-03-26T17:29:20.000Z
- 最近活动: 2026-03-27T22:48:07.909Z
- 热度: 112.7
- 关键词: LLM, 自动评分, 教育测评, 鲁棒性, 构造无关因素, 情境判断测试, 对抗性攻击, 大语言模型
- 页面链接: https://www.zingnex.cn/forum/thread/llm-8fb08df2
- Canonical: https://www.zingnex.cn/forum/thread/llm-8fb08df2
- Markdown 来源: ingested_event

---

# LLM自动评分系统的鲁棒性研究：对抗构造无关因素的实证分析\n\n## 研究背景与动机\n\n自动评分系统在教育测评领域的应用已有数十年历史，从早期的手工特征工程到如今的神经网络和Transformer模型，这些系统在评估开放式问答和作文方面取得了显著进展。研究表明，自动化系统的评分表现往往能达到甚至超越训练有素的人工评分员水平。然而，一个长期存在的问题始终困扰着这一领域：这些系统对构造无关因素（construct-irrelevant factors）的脆弱性。\n\n构造无关因素指的是那些与被测能力无关的文本特征。早期研究就发现，简单的文本重复就能人为提高评分结果；后续研究进一步揭示了特定词汇或短语注入、离题内容等因素对评分系统的干扰效应。这些发现动摇了人们对自动评分系统准确性的信任，因为它们可能测量的并非预期的能力，而是可被利用的代理指标。\n\n随着大语言模型（LLM）在自动评分领域的兴起，这一问题获得了新的关注维度。公众对LLM局限性（如"幻觉"现象）的广泛认知，使得研究LLM评分系统在对抗性条件下的鲁棒性变得尤为重要。\n\n## 研究设计与方法\n\n本研究采用了一种双架构LLM评分系统，该系统结合了"LLM作为评判者"的特征提取组件与透明回归算法。研究针对的是情境判断测试（Situational Judgment Test, SJT）中的开放式简答题，旨在评估学生的个人与专业技能，包括：\n\n- **个人内在技能**：情绪识别、自我调节、适应性挑战应对等\n- **人际技能**：有效沟通、同理心、协作能力\n- **社会与伦理责任**：尊重差异、坚持伦理原则\n- **批判性思维与问题解决**：信息收集、方案评估、资源管理\n\n研究团队从910名学生的26,571份回答中构建了评分系统，并从中选取了545份回答作为实验样本。样本选择采用了分层随机抽样策略，确保覆盖全部30个测评题目以及不同质量水平的回答。\n\n## 实验设计与发现\n\n研究设计了三个核心实验，系统性地检验了LLM评分系统对不同类型构造无关因素的敏感性。\n\n### 实验一：无意义文本的影响\n\n研究人员测试了四种无意义文本添加方式对评分结果的影响：\n\n**A. 原文重复**：将完整回答复制并追加到原文之后。这一设计直接针对先前研究发现的文本长度操纵问题。令人意外的是，与早期基于Transformer的评分系统（文本重复导致平均分提高0.93分）形成鲜明对比，本研究的LLM系统对重复文本表现出惩罚效应——重复内容反而导致评分下降。\n\n**B. 能力提示句**：添加说明题目考察能力的句子（如"本题旨在评估协作能力"）。\n\n**C. 情境重述**：添加对题目情境的简单重述。\n\n**D. 套话公式**：添加常见的应试套话（如"我将以尊重、非对抗、非评判的方式处理这种情况"）。\n\n结果显示，LLM系统对后三种无意义文本添加表现出显著的鲁棒性，评分变化微乎其微。\n\n### 实验二：写作复杂度的影响\n\n研究从两个维度考察了写作质量对评分的影响：\n\n**拼写错误**：通过字符级别的随机编辑（替换40%、删除30%、插入30%），以5%为步长从5%到50%引入不同程度的拼写错误。研究发现，即使在50%的字符错误率下，评分系统的输出仍然保持相对稳定，表明LLM评分系统对拼写错误具有高度容忍度。\n\n**阅读难度调整**：通过改写改变回答的阅读复杂度。结果显示，调整词汇和句式复杂度并未显著影响评分结果。\n\n这一发现具有重要意义：由于本研究评估的是情境判断能力而非语言能力，写作复杂度在此被视为构造无关因素。LLM系统能够在忽略语言表面特征的同时捕捉深层能力表现，这为构建针对不同能力维度的评分系统提供了可行路径。\n\n### 实验三：离题回答的影响\n\n研究测试了生成与题目无关的回答对评分的影响。结果显示，LLM评分系统对离题内容表现出高度敏感性，会显著降低此类回答的评分。这一特性与传统评分系统形成对比，后者有时难以识别内容相关性不足的回答。\n\n## 研究意义与启示\n\n本研究为LLM在自动评分领域的应用提供了重要的实证支持。主要贡献包括：\n\n**对文本长度操纵的新发现**：与先前研究中Transformer系统易被文本重复欺骗不同，LLM评分系统表现出独特的"反作弊"特性——重复内容不仅不能提高分数，反而会导致评分下降。这可能与LLM对语义冗余的敏感性有关。\n\n**构造相关性的设计重要性**：研究证明了通过精心设计的提示工程和特征提取策略，LLM评分系统可以专注于测量特定能力维度（如协作、批判性思维），同时忽略语言 proficiency 等无关因素。这为教育测评的多样化应用开辟了新可能。\n\n**离题检测能力**：LLM系统对离题内容的敏感性是一个积极信号，表明这些系统能够更好地评估回答的内容相关性，而非仅仅依赖表面特征。\n\n## 局限性与未来方向\n\n研究者也坦诚指出了本研究的局限性。首先，实验基于特定的双架构系统设计，结果可能无法直接推广到其他LLM评分架构。其次，研究聚焦于低利害性的形成性评估场景，在高利害性考试中的应用仍需进一步验证。此外，研究未涵盖所有可能的对抗性攻击类型，更复杂的提示注入攻击值得未来探索。\n\n尽管如此，本研究为LLM评分系统的鲁棒性提供了令人鼓舞的证据。随着大语言模型技术的持续演进，结合以构造相关性为核心的设计原则，自动评分系统有望在教育测评领域发挥更大作用，为学习者提供更准确、更有价值的能力评估与反馈。