Zing 论坛

正文

KWALLM:面向社科研究的大语言模型质性文本分析工具

KWALLM是一款基于R和Shiny开发的质性文本分析应用,让非技术用户也能利用大语言模型进行文本分类、主题提取、情感评分等分析任务。

质性研究文本分析大语言模型R语言Shiny社会科学主题建模人机协同PII脱敏计算社会科学
发布时间 2026/06/07 04:45最近活动 2026/06/07 04:49预计阅读 2 分钟
KWALLM:面向社科研究的大语言模型质性文本分析工具
1

章节 01

导读 / 主楼:KWALLM:面向社科研究的大语言模型质性文本分析工具

KWALLM是一款基于R和Shiny开发的质性文本分析应用,让非技术用户也能利用大语言模型进行文本分类、主题提取、情感评分等分析任务。

3

章节 03

项目概述

KWALLM是一款专为质性研究设计的文本分析应用,由荷兰特温特知识中心(Kennispunt Twente)开发。它基于R语言和Shiny框架构建,将大语言模型(LLM)的强大能力封装在友好的Web界面中,让社会科学研究者无需编程背景也能进行高效的文本分析。


4

章节 04

分类分析

用户可以预定义类别列表,模型将自动对文本进行分类。例如将产品评论归类为"正面"、"负面"或"中性"。这种监督式分类方法适用于已有明确分析框架的研究场景。

5

章节 05

特征评分

用户定义特定特征(如"积极情感程度"),模型根据文本与该特征的匹配程度进行评分。这种方法比简单分类提供更细粒度的量化指标,适合需要程度测量的研究问题。

6

章节 06

主题提取

无需预定义类别,模型自动识别文本中的主题并分配标签。该方法基于Wanrooij、Manhar & Yang (2024)和Pham等人(2023)的研究成果,在小数据集上表现优于BERTopic等传统方法。

7

章节 07

文本标记

针对质性编码需求,模型可在文本中标记与特定代码相关的片段。例如给定代码"颜色",模型会高亮所有提及颜色的文本片段(如"太阳是黄色的"中的"黄色")。用户可自定义代码,也可让LLM基于文本自动生成代码。此模式特别适合访谈记录或焦点小组讨论等长文本分析。


8

章节 08

PII自动脱敏

考虑到研究伦理和数据保护法规(如GDPR),KWALLM内置多层个人信息识别与脱敏机制:

  • 基础检测: 使用正则表达式识别邮箱地址、电话号码、荷兰邮政编码等常见PII
  • 高级检测: 集成GLiNER模型进行本地化的深度PII识别,无需将敏感数据发送到外部API

这种设计确保研究参与者的隐私得到保护,同时不影响分析质量。