正文

TenkiBench：面向挪威中小企业的开源大语言模型评测基准

首个专门针对挪威中小企业实际业务场景的大语言模型评测基准，涵盖发票解析、合同分析、税务计算、法律引用等 8 个真实任务类别。

大语言模型基准测试挪威语中小企业发票解析合同分析税务计算LLM评测

发布时间 2026/05/06 20:14最近活动 2026/05/06 20:28预计阅读 2 分钟

章节 01

导读 / 主楼：TenkiBench：面向挪威中小企业的开源大语言模型评测基准

首个专门针对挪威中小企业实际业务场景的大语言模型评测基准，涵盖发票解析、合同分析、税务计算、法律引用等 8 个真实任务类别。

章节 02

项目背景：为什么需要地域化业务基准？

挪威作为北欧高福利国家，拥有独特的商业环境和监管体系：

语言特殊性：挪威同时使用书面挪威语（Bokmål）和新挪威语（Nynorsk），两种官方语言间的翻译是日常业务需求
严格的税务体系：增值税（MVA）计算、税务申报有复杂的规则和例外条款
完善的劳动法：雇佣合同、解雇程序、病假工资等都有明确的法律规定
透明的企业注册系统：Brønnøysund 注册中心提供公开的企业信息查询服务

这些特点意味着，一个在通用英语基准上表现优秀的模型，可能在挪威本地业务场景中表现不佳。TenkiBench 正是为了填补这一评估空白而诞生。

章节 03

评测类别设计：覆盖真实业务场景

TenkiBench 精心设计了 8 个评测类别，每个类别都对应挪威中小企业的实际业务需求：

章节 04

1. 发票解析（faktura）

挪威发票包含特定的格式和字段：总金额、增值税（MVA）、KID（客户识别号）、到期日、开票方信息等。模型需要准确提取这些结构化数据。

评测方法：数值匹配 + 正则表达式验证

章节 05

2. 合同分析（kontrakt）

测试模型识别保密协议（NDA）、交付协议、雇佣合同中的风险条款能力。这要求模型理解法律文本的细微差别。

评测方法：LLM 裁判 + 评分量表

章节 06

3. 税务计算（mva-skatt）

涵盖增值税计算、抵扣问题、纳税义务判断等挪威税务实务。这是中小企业最常遇到的财务问题之一。

评测方法：数值计算 + 正则表达式验证

章节 07

4. 法律引用（lov-referanse）

测试模型正确引用挪威法律法规（Lovdata 数据库）的能力。准确的法律引用对于合规咨询至关重要。

评测方法：正则表达式 + 结构验证

章节 08

5. 企业注册查询（brreg）

基于 Brønnøysund 注册中心的公开数据，测试模型查询企业组织信息、签名权、股东角色的能力。

评测方法：JSON Schema 验证

TenkiBench：面向挪威中小企业的开源大语言模型评测基准

导读 / 主楼：TenkiBench：面向挪威中小企业的开源大语言模型评测基准

项目背景：为什么需要地域化业务基准？

评测类别设计：覆盖真实业务场景

1. 发票解析（faktura）

2. 合同分析（kontrakt）

3. 税务计算（mva-skatt）

4. 法律引用（lov-referanse）

5. 企业注册查询（brreg）

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统