章节 01
多语言极化检测亚军方案核心要点导读
本文介绍SemEval-2026 Task 9多语言极化检测任务(22种语言二分类)的亚军解决方案。PSK团队通过Gemma 3模型LoRA微调、GPT-4o-mini合成数据增强、语言级阈值调优和加权集成策略,实现0.811平均macro-F1分数,在3种语言中获第一名,42支队伍中排名第二。
正文
本文介绍了SemEval-2026多语言极化检测任务第二名的解决方案,涵盖22种语言的二分类任务。通过Gemma 3模型LoRA微调、GPT-4o-mini合成数据增强、语言级阈值调优和加权集成策略,实现了0.811的平均macro-F1分数,并在3种语言中获得第一名。
章节 01
本文介绍SemEval-2026 Task 9多语言极化检测任务(22种语言二分类)的亚军解决方案。PSK团队通过Gemma 3模型LoRA微调、GPT-4o-mini合成数据增强、语言级阈值调优和加权集成策略,实现0.811平均macro-F1分数,在3种语言中获第一名,42支队伍中排名第二。
章节 02
SemEval-2026 Task 9聚焦多语言极化检测,是横跨22种语言的二分类任务,旨在识别文本中的社会极化现象(群体观点对立分化),对理解舆论生态、缓解社会对立有重要价值。
核心挑战包括:1.语言多样性(22种不同语系/书写系统);2.训练数据稀缺(尤其是低资源语言);3.跨语言泛化要求(模型需在未见过的测试数据保持稳定性能)。
章节 03
团队选择Google Gemma 3系列(12B和27B参数版本)作为基础架构,其开源且多语言能力优异,参数规模适中适合有限资源微调。
针对每种语言独立微调,采用低秩适配(LoRA)技术:冻结预训练权重,仅训练低秩增量矩阵,大幅减少可训练参数,同时针对各语言特定模式优化。
章节 04
为缓解数据不足,团队用GPT-4o-mini生成合成数据,探索三种策略: 1.直接生成:LLM按任务定义生成极化/非极化样本; 2.改写增强:对现有样本语义改写,保持标签一致; 3.对比样本对:生成语义相似但标签相反的样本对,强化判别边界。
质量控制通过多阶段过滤管道,包括嵌入向量去重(计算语义相似度,去除冗余样本,避免过拟合)。
章节 05
1.语言级阈值调优:在开发集逐语言调优,无需重训模型,提升2-4%F1分数,揭示不同语言最佳分类阈值差异; 2.加权集成策略:采用12B和27B模型加权集成,动态选择策略,利用小模型局部模式捕捉与大模型语义理解的互补性。
章节 06
最终系统在22种语言获0.811平均macro-F1(排名第二),3种语言第一、8种进入前三。
关键发现:XLM-RoBERTa/Qwen3等架构在开发集表现强劲,但测试集F1下降30-50%;Gemma方案在开发/测试集性能更稳定,凸显架构选择与训练策略对泛化的重要性。
章节 07
技术启示: 1.合成数据需精细化管控(生成、筛选、去重等环节影响性能); 2.超参数优化(如语言级阈值)具高性价比; 3.泛化能力应作为核心评估指标。
应用前景: -社交媒体内容审核:识别加剧对立的多语言内容; -舆情监测:帮助政府/机构分析多语言舆论极化趋势; -技术迁移:方案可应用于情感分析、仇恨言论检测等多语言任务。
结语:该方案展示了竞赛最佳实践,为多语言NLP研究提供实战参考。