Zing 论坛

正文

TenkiBench:面向挪威中小企业的开源大语言模型评测基准

首个专门针对挪威中小企业实际业务场景的大语言模型评测基准,涵盖发票解析、合同分析、税务计算、法律引用等 8 个真实任务类别。

大语言模型基准测试挪威语中小企业发票解析合同分析税务计算LLM评测
发布时间 2026/05/06 20:14最近活动 2026/05/06 20:28预计阅读 2 分钟
TenkiBench:面向挪威中小企业的开源大语言模型评测基准
1

章节 01

导读 / 主楼:TenkiBench:面向挪威中小企业的开源大语言模型评测基准

首个专门针对挪威中小企业实际业务场景的大语言模型评测基准,涵盖发票解析、合同分析、税务计算、法律引用等 8 个真实任务类别。

2

章节 02

项目背景:为什么需要地域化业务基准?

挪威作为北欧高福利国家,拥有独特的商业环境和监管体系:

  • 语言特殊性:挪威同时使用书面挪威语(Bokmål)和新挪威语(Nynorsk),两种官方语言间的翻译是日常业务需求
  • 严格的税务体系:增值税(MVA)计算、税务申报有复杂的规则和例外条款
  • 完善的劳动法:雇佣合同、解雇程序、病假工资等都有明确的法律规定
  • 透明的企业注册系统:Brønnøysund 注册中心提供公开的企业信息查询服务

这些特点意味着,一个在通用英语基准上表现优秀的模型,可能在挪威本地业务场景中表现不佳。TenkiBench 正是为了填补这一评估空白而诞生。

3

章节 03

评测类别设计:覆盖真实业务场景

TenkiBench 精心设计了 8 个评测类别,每个类别都对应挪威中小企业的实际业务需求:

4

章节 04

1. 发票解析(faktura)

挪威发票包含特定的格式和字段:总金额、增值税(MVA)、KID(客户识别号)、到期日、开票方信息等。模型需要准确提取这些结构化数据。

评测方法:数值匹配 + 正则表达式验证

5

章节 05

2. 合同分析(kontrakt)

测试模型识别保密协议(NDA)、交付协议、雇佣合同中的风险条款能力。这要求模型理解法律文本的细微差别。

评测方法:LLM 裁判 + 评分量表

6

章节 06

3. 税务计算(mva-skatt)

涵盖增值税计算、抵扣问题、纳税义务判断等挪威税务实务。这是中小企业最常遇到的财务问题之一。

评测方法:数值计算 + 正则表达式验证

7

章节 07

4. 法律引用(lov-referanse)

测试模型正确引用挪威法律法规(Lovdata 数据库)的能力。准确的法律引用对于合规咨询至关重要。

评测方法:正则表达式 + 结构验证

8

章节 08

5. 企业注册查询(brreg)

基于 Brønnøysund 注册中心的公开数据,测试模型查询企业组织信息、签名权、股东角色的能力。

评测方法:JSON Schema 验证