章节 01
导读:大语言模型语音象征理解能力的心理语言学评估框架
本研究提出了一个系统评估框架,旨在探究大语言模型(LLMs)是否真正具备心理语言学验证的语音-语义编码模式,而非仅依赖训练数据中的表面模仿。核心方法是通过三级刺激分层设计,区分模型的真实语言能力与训练数据污染的影响,测试五种经典心理语言学理论(如bouba-kiki效应、音素联觉等),并结合可解释性分析深入理解模型内部机制。
正文
一个系统评估大语言模型是否表现出心理语言学验证的语音-语义编码模式的研究框架,通过三级刺激分层设计区分真实语言能力与训练数据污染
章节 01
本研究提出了一个系统评估框架,旨在探究大语言模型(LLMs)是否真正具备心理语言学验证的语音-语义编码模式,而非仅依赖训练数据中的表面模仿。核心方法是通过三级刺激分层设计,区分模型的真实语言能力与训练数据污染的影响,测试五种经典心理语言学理论(如bouba-kiki效应、音素联觉等),并结合可解释性分析深入理解模型内部机制。
章节 02
大语言模型在自然语言处理任务中表现出色,但核心问题仍存:模型是具备人类般的语言能力,还是仅模仿训练数据的表面模式?心理语言学领域已确立多种语音-语义关联现象(如跨文化的bouba-kiki效应),这些被视为人类深层认知机制的证据。本研究旨在验证LLMs展现此类模式的原因——是真实能力还是数据记忆?
章节 03
框架测试五种经典理论:
章节 04
为区分真实能力与数据污染,采用三级刺激设计:
章节 05
项目提供完整实验流水线:
construct_stimuli.py生成涵盖五种理论、三级、五种语言的刺激集;run_behavioral.py包含强制选择、评分、生成三种任务;run_contamination.py用四种方法检测数据污染;run_multilingual.py测试日语、韩语等语言的语音象征效应;run_compositionality.py用2×2×2×2因子设计测试拟声词组合性。
支持模型包括GPT-4o、Llama3.3 70B等,API设计支持多密钥轮询和响应缓存。章节 06
项目包含GPU支持的可解释性实验:
章节 07
本研究的多重意义:
章节 08
本项目代表AI评估的重要转向:从关注任务表现转向探究表现的来源与机制。借鉴心理语言学的实验传统,为理解"机器是否真正理解语言"提供新工具与视角。无论结果如何,均为构建更可靠、可解释的AI系统提供宝贵见解。