章节 01
【导读】印度语言视角下多语言大模型幻觉评估研究
本研究针对Phi-4、Qwen、LLaMA-2三种开源大语言模型,在印度五大主要语言(印地语、孟加拉语、泰卢固语、泰米尔语、马拉雅拉姆语)中的幻觉行为展开系统性评估,结合语义评估与机械可解释性技术,填补了现有研究在低资源语言幻觉评估领域的空白,为构建更公平可靠的多语言AI系统提供重要洞察。
正文
一项针对Phi-4、Qwen和LLaMA-2在印度五种主要语言中幻觉行为的开创性研究,结合语义评估与机械可解释性技术。
章节 01
本研究针对Phi-4、Qwen、LLaMA-2三种开源大语言模型,在印度五大主要语言(印地语、孟加拉语、泰卢固语、泰米尔语、马拉雅拉姆语)中的幻觉行为展开系统性评估,结合语义评估与机械可解释性技术,填补了现有研究在低资源语言幻觉评估领域的空白,为构建更公平可靠的多语言AI系统提供重要洞察。
章节 02
大型语言模型(LLMs)的幻觉问题是制约其可靠应用的核心瓶颈,但现有研究主要聚焦英语等高资源语言,对印度低资源语言的幻觉评估严重不足。印度语言生态复杂(22+官方语言、多语言家族差异),不同语言在语法、词汇、文化语境上的差异可能导致模型幻觉模式不同,因此本研究构建了针对印度语言的多维度幻觉评估框架。
章节 03
研究设计了涵盖语义相似度分析、漂移分数计算、实体一致性验证及机械可解释性探究的综合评估体系。语义评估采用TruthfulQA基准测试集(经NLLB-200翻译至目标语言);机械可解释性通过注意力熵、自注意力比率、逐层置信度等指标揭示模型内部机制差异。
章节 04
选取Phi-4(微软)、Qwen(阿里巴巴)、LLaMA-2(Meta)三种代表性开源模型;语言覆盖印度五大主要语言:印地语、孟加拉语、泰卢固语、泰米尔语、马拉雅拉姆语(分属印欧语系和达罗毗荼语系)。
章节 05
章节 06
项目提供完整开源实现,包括数据集预处理脚本、实验notebooks、核心算法源码及可视化图表;代码库模块化设计(data、notebooks、src、figures目录),便于复现与扩展;还撰写了IEEE格式学术论文阐述方法论与结果。
章节 07
实践意义:提醒开发者重视低资源语言质量保障,提供的评估框架可扩展至更多语言和模型。未来方向:扩大语言覆盖至更多方言/少数民族语言、对比商业闭源模型、探索特定语言家族微调策略、开发多语言幻觉检测缓解机制。