章节 01
主楼:智能体驱动的语料库语言学框架核心概述
本文介绍了智能体驱动的语料库语言学框架,该框架将大语言模型(LLM)与语料库查询引擎结合,让AI自主完成假设生成、语料查询和结果解释。在英语强化词研究中,该框架发现了历时性传递链和语义演变路径等重要规律,为语言研究提供了新范式。
正文
本文介绍了一种将大语言模型与语料库查询引擎结合的框架,使AI能够自主进行假设生成、语料查询和结果解释,在英语强化词研究中发现了历时性传递链和语义演变路径。
章节 01
本文介绍了智能体驱动的语料库语言学框架,该框架将大语言模型(LLM)与语料库查询引擎结合,让AI自主完成假设生成、语料查询和结果解释。在英语强化词研究中,该框架发现了历时性传递链和语义演变路径等重要规律,为语言研究提供了新范式。
章节 02
传统语料库语言学依赖人类研究者完成假设提出、查询构建、结果解读等全流程,存在三大问题:1. 技术门槛高(需掌握CQL等查询语言和统计工具);2. 研究效率低(人工调整参数、分析结果耗时);3. 可重复性差(研究者间分析路径和判断标准差异大)。
章节 03
针对传统瓶颈,研究者提出智能体驱动的语料库语言学框架。该框架通过结构化工具接口将LLM连接到语料库查询引擎,AI接管研究周期(生成假设、查询语料、解释结果、迭代分析)。人类仅需设定方向和评估输出,且所有发现锚定在可验证的语料证据上。框架并非替代现有范式,而是作为互补维度,聚焦"谁执行研究"而非理论与数据的认识论关系。
章节 04
研究团队通过Model Context Protocol(MCP)将LLM智能体连接到CQP索引的Gutenberg语料库(500万词)。MCP提供标准化工具接口,使LLM能将自然语言意图转化为精确的CQL查询语句,执行查询并解析结果。CQP是强大的语料库查询处理器,支持复杂语言学查询。
章节 05
给智能体下达"调查英语强化词"指令后,AI自主发现:1. 历时性传递链(so+形容词→very→really的代际更替);2. 语义演变的三条路径(去词汇化、极性固定、隐喻约束);3. 语域敏感性(不同强化词在口语、书面语等语域分布频率差异显著)。
章节 06
对照实验显示,无语料库访问的LLM仅能提供定性描述,无法给出量化数据、历时趋势和统计检验;而框架结合LLM推理与语料实证,实现"1+1>2"。外部效度测试中,智能体在CLMET语料库上复现Claridge (2025)和De Smet (2013)的研究,定量结果与原始高度一致,证明框架可靠性。
章节 07
框架意义:降低技术门槛(无需精通查询语言)、提升效率(研究周期从数周缩至数小时)、增强可重复性(标准化流程减少人为变异)、拓展研究边界(大规模系统性调查成为可能)。局限:AI分析深度或受训练数据偏见影响、需防止过度解读语料、人类角色需进一步界定。展望:随LLM能力提升和工具接口标准化,有望推动更多学科的AI赋能研究范式。