Zing 论坛

正文

用LLM重建沟通网络:关系事件历史数据中的接收者推断

该项目探索如何利用大语言模型推断多方对话中的消息接收者,将传统缺失的"谁在回应谁"信息转化为可分析的沟通网络结构,并以荷兰议会辩论数据为案例进行验证。

LLM应用社会网络分析关系事件历史计算社会科学议会辩论网络推断机器学习文本挖掘
发布时间 2026/04/21 19:35最近活动 2026/04/21 19:52预计阅读 3 分钟
用LLM重建沟通网络:关系事件历史数据中的接收者推断
1

章节 01

【导读】用LLM重建沟通网络:解决关系事件历史数据中的接收者推断难题

该项目探索利用大语言模型(LLM)的语境理解能力,解决关系事件历史(REH)数据中消息接收者缺失的核心问题——即“谁在回应谁”的信息缺失。通过自动推断接收者,将传统无法分析的动态交互转化为可分析的沟通网络结构,并以荷兰议会辩论数据为案例验证方法有效性。项目对比传统方法,设计双层评估体系,为计算社会科学与社会网络分析提供创新工具与方法论参考。

2

章节 02

研究背景:REH数据中的接收者缺失问题与传统方法局限

在社会网络分析与计算社会科学领域,关系事件历史(REH)数据记录“谁在什么时间对谁做了什么”的动态交互序列(如议会辩论、在线论坛等场景)。但长期难题是:仅知发言者,却缺失“发言者回应谁”的接收者信息,导致无法构建准确沟通图、计算中心性指标或追踪观点传播路径。传统方法依赖人工标注(成本高)或基于规则的启发式推断(复杂场景效果有限)。

3

章节 03

核心创新:LLM驱动的接收者推断与技术实现框架

核心创新在于利用LLM的语境理解能力自动推断接收者,假设LLM预训练习得的对话结构与语义知识可识别隐含回应关系。技术实现框架包含:

  1. 接收者推断引擎:将发言及上下文组织为提示,用少样本学习引导模型预测接收者;
  2. 多基线对比:与基于规则的启发式方法、传统机器学习模型、不同LLM配置对比;
  3. 双层评估体系:轮次级(分类任务的准确率、F1等)与网络级(推断网络与真实网络的结构相似性、指标恢复程度);
  4. 置信度分析:探索模型自我评估置信度与错误率的关联;
  5. 关系事件分析:研究时间动态模式、话题转移与回应链关联等。
4

章节 04

实验设计:以荷兰议会辩论数据为案例验证

实验以荷兰议会(Tweede Kamer)公开辩论记录为主要对象,该数据具有:

  • 时间跨度:多年度辩论记录;
  • 参与规模:数十至上百位议员;
  • 话题多样性:预算、立法、质询等多种类型;
  • 结构特征:明确的发言顺序与议程框架。 数据特性提供充足样本,但也带来挑战:议员数量多导致分类空间大、话题跳跃增加语境理解难度、政治语言与日常对话差异。
5

章节 05

研究意义与应用前景:激活历史数据,扩展研究范围

研究意义

  1. 降低研究门槛:激活大量无需人工标注的历史REH数据;
  2. 提升分析精度:准确接收者推断改善网络分析效度;
  3. 扩展研究范围:处理更大规模、更长时间跨度的数据集。 方法论启示:为LLM适配社会科学任务、设计微观与宏观评估框架、量化不确定性提供参考。 潜在应用:在线社区分析、组织沟通研究、历史文献挖掘、多语言扩展(其他语言议会数据)。
6

章节 06

代码可用性:开源实现支持复现与扩展

项目代码已在GitHub开源,提供:

  • 完整Python实现;
  • 少样本提示模板(prompts/目录);
  • 评估脚本与指标计算工具;
  • 置信度分析工具。 支持其他研究者复现结果、扩展方法或应用于新数据集。
7

章节 07

局限性与未来工作:标注依赖、成本与泛化问题

局限性

  1. 依赖标注数据:训练/验证需部分标注数据,完全无监督推断仍具挑战;
  2. 计算成本:LLM API调用成本限制大规模历史数据处理;
  3. 领域泛化:议会辩论场景的方法是否适用于非正式对话?
  4. 多接收者问题:现实中一条消息可能有多个接收者,当前分类框架简化。 未来工作:探索更高效提示策略、多接收者建模、跨语言迁移、与其他网络推断方法集成。
8

章节 08

总结:LLM在计算社会科学中的创新应用价值

该项目是LLM在计算社会科学中的创新应用,通过解决REH数据接收者缺失问题,为网络分析提供关键工具。精细的双层评估与基线对比验证了方法有效性,为社会网络分析、政治文本分析或对话挖掘研究者提供值得关注的工具与方法论参考。