# 大语言模型在调查研究中的系统性综述：从文本分类到数据生成的全景分析

> 一项涵盖136项研究的系统性综述，全面分析了LLM在调查研究全流程中的应用现状、成功场景与失败案例，揭示了当前研究集中于文本分类、数据生成和问卷设计三大领域，同时指出了模型选择单一性和英语语境偏向等可复现性问题。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-06-15T09:45:36.000Z
- 最近活动: 2026-06-15T09:49:00.899Z
- 热度: 148.9
- 关键词: LLM, 调查研究, 系统性综述, 文本分类, 数据生成, 问卷设计, 公共舆论
- 页面链接: https://www.zingnex.cn/forum/thread/geo-github-leahvdh-survai
- Canonical: https://www.zingnex.cn/forum/thread/geo-github-leahvdh-survai
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者**: Leah von der Heyde, Florian Keusch, Trent Buskirk, Adam Eck
- **来源平台**: GitHub
- **原始标题**: survai: Data and code for "AI in the Loop!? A Systematic Review of the Use of Large Language Models in Survey and Public Opinion Research"
- **原始链接**: https://github.com/leahvdh/survai
- **发布时间**: 2026-06-15

---

## 研究背景：为什么需要这项综述？

大语言模型（Large Language Models, LLMs）正在以前所未有的速度重塑调查研究（Survey and Public Opinion Research）的完整流程。从问卷设计、数据收集到结果分析，LLM的渗透已经触及这一传统社会科学领域的每个环节。然而，技术变革的速度与学术严谨性之间存在天然张力——现有的相关综述要么缺乏系统性，要么过于狭窄，要么停留在纯理论层面，无法为实践者提供可靠的指导。

这项由Leah von der Heyde等学者主导的系统性综述填补了这一空白。研究团队对136项实证研究进行了定量与定性双重评估，全面梳理了LLM在调查研究前、中、后三个阶段的应用现状，并深入分析了哪些任务、语境和研究设计下LLM表现优异，哪些场景下它们仍然力不从心。

## 核心发现：LLM在调查研究中的三大主战场

截至2025年的文献分析显示，LLM在调查研究中的应用高度集中在以下三个领域：

### 1. 文本数据分类

这是当前最成熟的应用场景。研究者利用LLM对开放式问卷回答、社交媒体评论、访谈记录等非结构化文本进行自动编码和主题分类。相比传统的人工编码方式，LLM能够在保持可接受准确率的前提下，将处理时间从数周压缩至数小时。

然而，研究也发现LLM在捕捉细微语义差别和文化特定概念时表现不稳定。当涉及讽刺、隐喻或特定群体的内部用语时，模型的误判率显著上升。

### 2. 调查数据生成

LLM被用于生成合成调查数据，以进行预研究（pilot study）、测试问卷逻辑、或补充稀缺样本。这一应用引发了学界对数据真实性（authenticity）的热烈讨论——合成数据能否真正反映人类受访者的复杂性和多样性？

综述指出，LLM在生成符合总体统计分布的数据方面表现尚可，但在模拟个体层面的异质性（idiosyncrasy）时存在明显局限。换句话说，模型擅长"平均"，却难以"独特"。

### 3. 调查工具开发

从问卷措辞优化到答案选项生成，LLM正在成为问卷设计者的智能助手。研究表明，LLM在识别模糊问题、建议更中性的表述、以及生成覆盖全面的答案选项方面展现出实用价值。

但这里同样存在陷阱：模型可能基于训练数据中的偏见，生成带有隐含价值判断的措辞，而这一点需要人类专家的仔细审查。

## 研究设计的隐忧：通用性与可复现性危机

尽管应用场景多样，综述揭示了一个令人担忧的模式：绝大多数研究采用单一GPT系列模型，使用零样本提示（zero-shot prompting），并在英语语境下进行测试。这种高度同质化的研究设计带来了严重的通用性问题。

首先，模型选择的单一性意味着研究结果可能过度依赖OpenAI模型的特定特性，而非LLM技术的普遍规律。不同架构、不同训练数据的模型在相同任务上的表现可能存在显著差异。

其次，零样本提示虽然降低了使用门槛，但也限制了模型性能的发挥。研究表明，经过精心设计的少样本（few-shot）提示或链式思考（chain-of-thought）提示往往能带来质的飞跃，但这些技术在当前文献中的采用率仍然偏低。

最后，英语中心主义使得非英语语境下的LLM应用成为一个研究盲区。考虑到语言的文化嵌入性，直接将英语研究的结论推广到其他语言环境是危险的。

## 深层洞察：LLM更适合辅助而非替代人类

综观136项研究，一个清晰的模式浮现出来：LLM在近似广泛的、代表性良好的聚合模式（aggregate patterns）时表现出色，但在捕捉细微的个体态度、特定主题或复杂构念时则力不从心。

这一发现具有重要的方法论意义。它表明LLM在调查研究中的最佳角色定位是"人类研究者的高级助手"，而非"全自动替代方案"。具体而言：

- **在探索性阶段**，LLM可以快速扫描大量文本，识别潜在主题和模式，为人类研究者提供起点；
- **在验证性阶段**，人类专家需要对LLM的输出进行校准和验证，确保关键概念被正确理解；
- **在报告阶段**，LLM可以协助生成描述性统计和可视化，但解释性分析仍需人类判断。

这种"人在回路"（human-in-the-loop）的协作模式，既发挥了LLM的规模优势，又保留了人类研究者的领域专长和批判性思维。

## 未来方向：推动领域走向成熟

综述为调查研究领域的LLM应用提出了三项关键建议：

**第一，建立细致的模型选择指南。** 不同的研究问题和数据类型可能适合不同的模型架构和规模。领域需要积累更多关于模型比较的系统证据，而非默认选择最流行的选项。

**第二，制定LLM应用的标准化报告规范。** 当前文献在提示设计、模型版本、温度参数等关键细节上的报告质量参差不齐，严重阻碍了结果的可复现性。借鉴开放科学运动的经验，建立LLM辅助研究的透明报告标准势在必行。

**第三，开发调查特定的基准测试集。** 通用NLP基准（如GLUE、SuperGLUE）并不能充分捕捉调查研究任务的独特挑战，如敏感话题处理、社会期望偏差、以及跨群体公平性。领域需要投资构建更能反映实际应用场景的评估数据集。

## 结语：技术变革中的方法论自觉

大语言模型无疑为调查研究带来了前所未有的工具可能性，但技术能力的提升不能自动转化为研究质量的提升。这项系统性综述的价值，在于它以一种冷静而全面的视角审视了LLM在调查研究中的真实能力边界——既不过度乐观，也不过度悲观。

对于正在考虑将LLM纳入研究工具箱的调查方法学者而言，这份综述提供了一个坚实的出发点。它提醒我们：在拥抱新技术的同时，保持方法论上的自觉和批判性，才是确保调查研究继续产出可信知识的关键。

---

*本文基于开源项目 survai 的复制材料撰写，该项目提供了综述中所有统计图表的R代码、编码数据以及四个文献库（BibTeX格式），为后续研究者验证和扩展这项工作提供了完整的基础设施。*