Zing 论坛

正文

IndicGovBench:面向印度政务场景的多语言大模型评测基准

IndicGovBench是一个专门针对印度政府服务场景设计的多语言评测基准,用于评估大语言模型在法律、 civic 和政务流程推理方面的能力,涵盖英语、印地语和马拉地语三种语言。

大语言模型评测多语言AI政务AI印度基准测试幻觉检测政府服务LLM benchmark
发布时间 2026/05/16 20:14最近活动 2026/05/16 20:48预计阅读 3 分钟
IndicGovBench:面向印度政务场景的多语言大模型评测基准
1

章节 01

【导读】IndicGovBench:印度政务场景的多语言大模型评测基准

核心观点提炼:IndicGovBench是针对印度政府服务场景设计的多语言评测基准,覆盖英语、印地语、马拉地语三种语言,旨在评估大模型在法律、civic及政务流程推理等方面的能力,填补了政务场景专业评测工具的空白。其核心价值在于聚焦印度独特的多语言政务需求,强调准确性、多语言一致性及抗幻觉能力,为政务AI系统提供标准化评估工具。

2

章节 02

背景与动机

随着大语言模型在全球政务场景的应用普及,现有评测基准多聚焦通用知识或学术能力,缺乏针对特定国家政务流程、法律条文的专业工具。印度作为14亿人口、22种官方语言的多语言国家,高频政务场景(如PAN卡更正、EPFO提取、GST登记等)对AI系统的准确性、多语言一致性和抗幻觉能力要求极高。IndicGovBench应运而生,填补了这一空白。

3

章节 03

评测维度与设计思路

IndicGovBench从六个核心维度评估模型能力:

  1. 程序性推理:理解政务流程步骤(如PAN卡地址更正所需文件);
  2. 政府工作流理解:掌握跨部门协作关系、材料交叉要求;
  3. 法律与行政指令解读:准确理解正式文件中的专业术语和条件;
  4. 多语言一致性:同一问题在不同语言下回答保持事实一致;
  5. 抗幻觉能力:检测是否编造虚假政策或流程;
  6. 公民服务可靠性:综合评估回答的完整性、可操作性等。
4

章节 04

典型评测样例与数据来源

典型样例

  • 政务流程类(英语):"What documents are typically required for PAN card address correction in India?"(参考答案:身份证明、地址证明、PAN卡复印件及支持性地址文件);
  • 多语言推理类(印地语):"EPFO claim status kaise check kare?"(如何查询EPFO申请状态,参考答案:通过EPFO门户网站或UMANG应用程序);
  • 幻觉检测类(马拉地语):"रेशन कार्ड अपडेट करण्यासाठी कोणती कागदपत्रे आवश्यक असतात?"(更新配给卡所需文件,参考答案:身份证明、地址证明及家庭成员信息)。 数据来源:均来自印度官方公开渠道,包括india.gov.in、epfindia.gov.in、incometax.gov.in等,确保权威性和合规性,无敏感信息。
5

章节 05

评估指标与技术架构

评估指标:采用多维度指标,包括精确匹配(EM)、准确率、F1分数、幻觉率、多语言一致性评分及LLM-as-Judge打分。 技术架构:代码仓库分层清晰,包含data(数据集)、evaluation(评分脚本)、notebooks(演示)、docs(文档)等模块,兼容Kaggle Benchmarks SDK,支持可复现评测和批量评估。

6

章节 06

发展路线图

IndicGovBench目前处于早期阶段,路线图如下:

  • 第一阶段(当前):基础框架、试点多语言数据集、基础指标;
  • 第二阶段(近期):扩展数据规模、引入人工审核、完善幻觉评估;
  • 第三阶段(中期):发布公开排行榜、接受社区贡献; 长期目标:成为印度政务AI领域权威评测标准,提升AI系统可靠性和透明度。
7

章节 07

行业意义与结语

行业意义:证明领域专用评测基准的必要性,为多语言国家AI部署提供参考。对其他地区的启示:需从真实需求出发,设计核心场景任务,关注抗幻觉等安全指标。 结语:IndicGovBench代表垂直领域大模型评测的新方向,为印度政务AI解决方案提供评估工具,帮助识别模型能力边界和风险,推动政务AI向更高水平发展。