章节 01
AI驱动的梦境分析工具llm_dream_coder导读
介绍llm_dream_coder——一个利用Claude大语言模型半自动化Hall/Van de Castle(H/VdC)编码的开源工具包,旨在解决梦境研究中人工编码耗时费力的问题,在降低编码负担的同时保留人工审核环节,助力大规模梦境定量分析。
正文
一个利用Claude大语言模型半自动化进行梦境内容定量分析的开源工具包,在保持人工审核的同时显著降低编码工作负担。
章节 01
介绍llm_dream_coder——一个利用Claude大语言模型半自动化Hall/Van de Castle(H/VdC)编码的开源工具包,旨在解决梦境研究中人工编码耗时费力的问题,在降低编码负担的同时保留人工审核环节,助力大规模梦境定量分析。
章节 02
H/VdC系统是梦境内容定量分析的标准框架,涵盖人物、社交互动、活动等多个维度。传统人工编码需专业培训,可靠性高但labor-intensive,限制了大规模研究应用。
章节 03
llm_dream_coder采用模块化架构,核心原则:通用性(无需定制数据集)、模块化(编码类别独立)、人工审核导向(输出供复核)。技术流程:数据读取→API调用Claude(带编码手册提示)→结果解析→评估对比→保存结果,利用提示缓存降本。
章节 04
人物编码模块测试结果:
| 数据集 | 类型 | 样本量 | 整体F1 | 非家庭人物F1 |
|---|---|---|---|---|
| b-baseline | 系列数据(开发集) | 50 | 0.73 | 0.74 |
| norms-f | 规范数据(测试集) | 50 | 0.68 | 0.70 |
| emma | 系列数据(测试集) | 50 | 0.51 | 0.54 |
| 关键发现:非家庭人物F1为核心指标(家庭编码需传记知识);规范数据集是最适当基准。 |
章节 05
数据准备:需coded_dreams.csv(含dream_id等)和可选的dreambank_codings.csv。运行模式:默认、指定数量/集合、系列模式等。成本:claude-opus-4-6模型约0.02-0.05美元/梦境,缓存机制可降本。
章节 06
局限性:家庭编码需传记信息(系列模式缓解);人工编码员传记偏见影响F1;API成本较高,长梦境可能格式错误。
章节 07
适用于大规模分析、跨文化研究、纵向追踪、教学培训,帮助研究者节省编码时间,聚焦分析解释。
章节 08
llm_dream_coder不取代研究者判断,自动化繁琐编码。未来完善其他模块,为梦境研究带来更大价值。