章节 01
【导读】跨学科话语图谱:LLM与BERTopic解析教育研究十年演变
本文介绍一个计算社会科学创新项目,利用大语言模型(LLM)和BERTopic主题建模技术,对2015-2025年间学习科学与教育技术领域的期刊摘要进行跨学科话语分析,构建话语图谱,为理解教育研究演变趋势提供数据驱动视角,展示计算社会科学在学术趋势洞察中的应用。
正文
该项目利用大语言模型和主题建模技术,对2015-2025年间学习科学与教育技术领域的期刊摘要进行跨学科话语分析,展示了计算社会科学在学术趋势洞察中的应用。
章节 01
本文介绍一个计算社会科学创新项目,利用大语言模型(LLM)和BERTopic主题建模技术,对2015-2025年间学习科学与教育技术领域的期刊摘要进行跨学科话语分析,构建话语图谱,为理解教育研究演变趋势提供数据驱动视角,展示计算社会科学在学术趋势洞察中的应用。
章节 02
学习科学源于认知科学与教育心理学,关注学习深层机制;教育技术聚焦技术工具设计与应用。过去十年两领域快速发展,但知识流动、概念交叉与话语分化缺乏量化研究。传统人工编码内容分析耗时费力,自然语言处理技术虽提供新可能,但结合领域知识的主题发现及算法效度验证仍是方法论挑战。
章节 03
核心目标:回答两领域核心主题、主题演变、跨领域共享与分歧、LLM辅助主题标注的可解释性提升问题。 数据范围:2015-2025年两领域主要期刊摘要,覆盖十年趋势。 技术流程:1.文本预处理(清洗、分词、去停用词);2.BERTopic主题建模;3.LLM辅助主题标注;4.跨领域对比分析;5.统计验证(Bootstrap推断、敏感性分析)。
章节 04
BERTopic主题建模:通过Sentence-BERT嵌入文档 嵌入、UMAP降维+HDBS�BSCAN聚类、c-TF-ID 代表性词汇 汇生成主题,相比LDA优势:捕捉语义关系、 词袋假设设,自动确定主题数,,细粒度子主题 发现。 LLM辅助 助标注:提取主题题簇 代表性文档与关键词,输入LLM生成标签,人工审核修正,解决主题命名难题。。 统计验证 Bootstrap推断 感性分析**:Bootstrap重复抽样估计置信区间;改变UMAP邻居数、HDBSCAN最小簇大小等参数验证结果稳健性。
章节 05
领域特异性主题:学习科学关注认知负荷、情境学习、元认知等;教育技术关注在线学习平台、移动学习、VR等。 跨学科交汇:共享设计型研究、基于证据的实践、学习分析等主题。 时间演变:传统主题(如行为主义)衰退,新兴主题(如生成员AI教育应用)崛起,个性化学习等周期性回归。
章节 06
贡献:1.LLM增强主题建模流程,提升自动化与可解释性;2.跨领域比较框架可推广至其他学科;3.Bootstrap与感性分析提升结果可靠性。 局限:仅分析期刊摘要遗漏细节;若仅英文数据忽略非英语贡献;主题趋势仅示相关性,无法推断因果。
章节 07
应用场景:学术趋势监测辅助资源配置;跨学科合作发现;课程内容更新;研究选题辅助。 拓展方向:多语言分析;结合引文网络分析知识流动;全文分析;实时监测实现持续追踪。