正文

IndicGovBench：面向印度政务场景的多语言大模型评测基准

IndicGovBench是一个专门针对印度政府服务场景设计的多语言评测基准，用于评估大语言模型在法律、 civic 和政务流程推理方面的能力，涵盖英语、印地语和马拉地语三种语言。

大语言模型评测多语言AI政务AI印度基准测试幻觉检测政府服务LLM benchmark

发布时间 2026/05/16 20:14最近活动 2026/05/16 20:48预计阅读 3 分钟

章节 01

【导读】IndicGovBench：印度政务场景的多语言大模型评测基准

核心观点提炼：IndicGovBench是针对印度政府服务场景设计的多语言评测基准，覆盖英语、印地语、马拉地语三种语言，旨在评估大模型在法律、civic及政务流程推理等方面的能力，填补了政务场景专业评测工具的空白。其核心价值在于聚焦印度独特的多语言政务需求，强调准确性、多语言一致性及抗幻觉能力，为政务AI系统提供标准化评估工具。

章节 02

背景与动机

随着大语言模型在全球政务场景的应用普及，现有评测基准多聚焦通用知识或学术能力，缺乏针对特定国家政务流程、法律条文的专业工具。印度作为14亿人口、22种官方语言的多语言国家，高频政务场景（如PAN卡更正、EPFO提取、GST登记等）对AI系统的准确性、多语言一致性和抗幻觉能力要求极高。IndicGovBench应运而生，填补了这一空白。

章节 03

评测维度与设计思路

IndicGovBench从六个核心维度评估模型能力：

程序性推理：理解政务流程步骤（如PAN卡地址更正所需文件）；
政府工作流理解：掌握跨部门协作关系、材料交叉要求；
法律与行政指令解读：准确理解正式文件中的专业术语和条件；
多语言一致性：同一问题在不同语言下回答保持事实一致；
抗幻觉能力：检测是否编造虚假政策或流程；
公民服务可靠性：综合评估回答的完整性、可操作性等。

章节 04

典型评测样例与数据来源

典型样例：

政务流程类（英语）："What documents are typically required for PAN card address correction in India?"（参考答案：身份证明、地址证明、PAN卡复印件及支持性地址文件）；
多语言推理类（印地语）："EPFO claim status kaise check kare?"（如何查询EPFO申请状态，参考答案：通过EPFO门户网站或UMANG应用程序）；
幻觉检测类（马拉地语）："रेशन कार्ड अपडेट करण्यासाठी कोणती कागदपत्रे आवश्यक असतात?"（更新配给卡所需文件，参考答案：身份证明、地址证明及家庭成员信息）。 数据来源：均来自印度官方公开渠道，包括india.gov.in、epfindia.gov.in、incometax.gov.in等，确保权威性和合规性，无敏感信息。

章节 05

评估指标与技术架构

评估指标：采用多维度指标，包括精确匹配（EM）、准确率、F1分数、幻觉率、多语言一致性评分及LLM-as-Judge打分。 技术架构：代码仓库分层清晰，包含data（数据集）、evaluation（评分脚本）、notebooks（演示）、docs（文档）等模块，兼容Kaggle Benchmarks SDK，支持可复现评测和批量评估。

章节 06

发展路线图

IndicGovBench目前处于早期阶段，路线图如下：

第一阶段（当前）：基础框架、试点多语言数据集、基础指标；
第二阶段（近期）：扩展数据规模、引入人工审核、完善幻觉评估；
第三阶段（中期）：发布公开排行榜、接受社区贡献；长期目标：成为印度政务AI领域权威评测标准，提升AI系统可靠性和透明度。

章节 07

行业意义与结语

行业意义：证明领域专用评测基准的必要性，为多语言国家AI部署提供参考。对其他地区的启示：需从真实需求出发，设计核心场景任务，关注抗幻觉等安全指标。结语：IndicGovBench代表垂直领域大模型评测的新方向，为印度政务AI解决方案提供评估工具，帮助识别模型能力边界和风险，推动政务AI向更高水平发展。