# TenkiBench：面向挪威中小企业的开源大语言模型评测基准

> 本文介绍TenkiBench项目，这是一个专门针对挪威中小企业实际业务场景设计的开源大语言模型评测基准，涵盖发票解析、合同分析、税务计算等真实任务。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-05-06T01:43:04.000Z
- 最近活动: 2026-05-06T02:24:07.212Z
- 热度: 150.3
- 关键词: 大语言模型, 评测基准, 挪威语, 中小企业, 发票解析, 合同分析, 税务计算, 开源项目
- 页面链接: https://www.zingnex.cn/forum/thread/tenkibench
- Canonical: https://www.zingnex.cn/forum/thread/tenkibench
- Markdown 来源: ingested_event

---

# TenkiBench：面向挪威中小企业的开源大语言模型评测基准

## 引言：为什么需要地域化的模型评测？

大语言模型（LLM）的能力评估一直是AI领域的重要课题。从早期的GLUE、SuperGLUE到近年来的MMLU、HumanEval，各种基准测试推动了模型能力的不断提升。然而，大多数主流评测基准都存在一个共同问题：它们主要关注通用知识或英语场景，对于特定地域、特定行业的实际应用需求覆盖不足。

想象一下，一家挪威的小型会计师事务所想要选择一款AI工具来辅助工作。他们关心的可能不是模型能否回答哲学问题或编写Python代码，而是它能否准确理解挪威语的发票格式、正确处理增值税（MVA）计算、识别本地法律条款的引用。这些看似细枝末节的能力，却是决定AI工具能否在实际工作中创造价值的关键。

正是在这样的背景下，**TenkiBench**应运而生。这是一个专门针对挪威中小企业（SMB）业务场景设计的开源大语言模型评测基准，由Tenki Labs开发并维护。

## 项目背景：挪威中小企业的真实需求

挪威的商业环境有其独特之处。作为北欧国家，挪威拥有发达的社会福利体系和复杂的税收法规。企业日常运营中涉及大量本地化的文档处理任务：从挪威语的发票和合同，到Brønnøysund注册中心的企业信息查询，再到Bokmål和Nynorsk两种书面挪威语之间的翻译。

TenkiBench的设计团队深入调研了这些实际需求，将评测任务划分为八个核心类别，每个类别都对应中小企业日常工作中的真实场景：

## 评测任务详解：八大核心类别

### 1. 发票解析（faktura）

发票处理是中小企业财务工作的基础。TenkiBench设计了一系列挪威语发票的解析任务，要求模型提取关键信息：总金额、增值税（MVA）金额、KID号码（挪威特有的发票识别码）、到期日、开票方信息等。

评测采用数值匹配和正则表达式验证相结合的方式，确保模型不仅能"读懂"发票，还能准确提取结构化数据。这对于自动化会计流程、减少人工录入错误具有重要意义。

### 2. 合同分析（kontrakt）

合同审查是企业法务工作的核心。TenkiBench收录了NDA保密协议、交付协议、雇佣合同等常见商业合同类型，要求模型识别其中的风险条款。

例如，模型需要能够发现过于宽泛的竞业限制条款、不合理的赔偿条款、或模糊不清的交付时间约定。评测采用LLM-as-judge（以语言模型作为评判者）的方法，结合人工设计的评分标准，评估模型的风险识别能力。

### 3. 增值税与税务计算（mva-skatt）

挪威的增值税（MVA）制度有其独特之处。TenkiBench设计了一系列税务计算任务，包括增值税金额计算、抵扣问题判断、纳税义务确定等。

这些任务不仅考验模型的计算能力，更重要的是考验它对挪威税法的理解。例如，某些商品和服务在挪威适用不同的增值税率，模型需要能够正确识别这些差异。

### 4. 法律引用识别（lov-referanse）

在商业文档中，准确引用法律条文至关重要。TenkiBench要求模型识别和验证对挪威法律（Lovdata）的引用，包括法律名称、条款编号、具体条文内容等。

评测使用正则表达式和结构化验证相结合的方法，确保模型生成的法律引用准确无误。这对于生成合规的商业文档、避免法律风险具有重要价值。

### 5. 企业注册信息查询（brreg）

Brønnøysund注册中心是挪威的官方企业注册机构。TenkiBench设计了针对Brønnøysund数据库查询的任务，要求模型能够理解和生成正确的查询请求，并解析返回的企业信息。

任务涵盖组织数据查询、签名权确认、企业角色识别等常见场景。评测使用JSON模式验证，确保模型输出的结构化数据符合预期格式。

### 6. 人力资源与薪酬（hr-lønn）

雇佣法规是中小企业必须面对的重要领域。TenkiBench收录了关于工作时间、病假工资、年假、解雇程序等常见HR问题的评测任务。

这些任务考验模型对挪威劳动法的理解，以及它在复杂情境下给出合规建议的能力。评测采用LLM-as-judge方法，由专家设计的评分标准评估回答的准确性和完整性。

### 7. 客户服务语气优化（kundeservice）

对于面向消费者的企业，客户服务质量直接影响品牌形象。TenkiBench设计了一项独特的评测任务：评估模型改写客户服务回复的能力，要求改写后的回复在保持礼貌、清晰、准确的同时，符合挪威商业沟通的语气规范。

这项评测同样采用LLM-as-judge方法，从多个维度评估改写质量：礼貌程度、信息清晰度、准确性、以及语气是否符合挪威商业文化。

### 8. Bokmål与Nynorsk互译（bokmål-nynorsk）

挪威有两种官方书面语言：Bokmål和Nynorsk。虽然两者互通，但在正式文档中保持语言一致性很重要。TenkiBench要求模型能够在这两种语言之间进行准确翻译。

评测结合了LLM-as-judge和专家评估，确保翻译不仅语义准确，还能保持原文的语气和风格。

## 技术架构：开源透明的评测体系

TenkiBench不仅是一个评测基准，更是一个完整的开源项目。它的技术栈包括：

### 前端与可视化

项目采用Next.js 16（standalone模式）构建，配合Tailwind CSS和shadcn风格的组件库，提供了现代化的用户界面。Recharts用于生成评测结果的可视化图表，TanStack Table用于展示详细的模型性能对比表。

### 后端与数据库

PostgreSQL用于存储评测数据和结果，部署在Tenki Labs自有的VPS上。这种自托管的架构确保了数据主权和评测的独立性。

### 模型接入

TenkiBench通过OpenAI SDK对接Mammouth.ai平台，实现了对多种主流大语言模型的统一访问。这种设计使得评测可以覆盖GPT系列、Claude系列等多种模型，并保持接口的一致性。

### 边缘部署

项目使用Caddy作为边缘服务器，负责TLS终止和请求路由。这种轻量级的部署方式降低了运维复杂度，同时保证了服务的可靠性。

## 评测方法论：公平、透明、可复现

TenkiBench的设计遵循三个核心原则：

### 公平性

所有参与评测的模型都面对相同的测试集，评测代码完全开源。模型供应商无需付费即可参与评测，这避免了商业利益对评测结果的潜在影响。

### 透明度

评测任务、评估代码和结果全部公开。任何人都可以审查评测方法，发现潜在的问题或偏见。这种透明度是建立评测基准可信度的基础。

### 可复现性

TenkiBench提供了完整的本地运行环境搭建指南。研究者可以在自己的环境中复现评测结果，验证官方发布的排行榜数据。

评测采用了多种评估方法，针对不同任务类型选择最合适的指标：

- **数值匹配+正则表达式**：适用于发票解析、税务计算等有明确正确答案的任务
- **LLM-as-judge+评分标准**：适用于合同分析、HR咨询等需要综合判断的任务
- **JSON模式验证**：适用于结构化数据提取任务
- **专家评估**：适用于语言翻译等需要主观判断的任务

## 实际应用：如何使用TenkiBench

对于想要使用TenkiBench评估模型的用户，项目提供了多种使用方式：

### 查看公开排行榜

访问 [bench.tenki.no](https://bench.tenki.no) 可以查看各模型在八个任务类别上的详细表现。排行榜实时更新，展示了当前主流大语言模型在挪威SMB场景下的能力排名。

### 本地运行评测

开发者可以在本地环境中运行评测：

```bash
# 安装依赖
pnpm install
cp .env.example .env.local
# 配置DATABASE_URL、MAMMOUTH_API_KEY等环境变量
pnpm db:migrate
pnpm tasks:validate

# 针对特定模型运行评测
pnpm bench:run --model=gpt-5 --provider=mammouth

# 针对所有活跃模型运行评测
pnpm bench:run-all

# 仅评测特定类别
pnpm bench:run --model=claude-opus-4-7 --category=faktura
```

### 贡献新任务

TenkiBench欢迎社区贡献。如果你有针对挪威商业场景的独特评测需求，可以参考项目的贡献指南提交新任务提案。

## 局限性与未来展望

尽管TenkiBench填补了地域化评测基准的空白，但它也有一些局限性需要注意：

首先，评测任务主要面向挪威语场景，对于其他语言或地区的直接适用性有限。不过，项目的方法论和架构设计可以为其他地区的类似项目提供参考。

其次，评测集包含一部分非公开的hold-out数据，这是为了防止模型过拟合评测任务。虽然这保证了评测的公平性，但也意味着社区无法完全复现官方的完整评测流程。

未来，TenkiBench可能会朝以下方向扩展：

- **多语言扩展**：将方法论应用到其他北欧语言或欧洲语言
- **行业细分**：针对特定行业（如医疗、法律、金融）设计更专业的评测任务
- **动态评测**：引入随时间变化的评测任务，测试模型的持续学习能力
- **多模态扩展**：加入对发票图片、合同扫描件等非文本数据的处理能力评测

## 结语：评测基准的进化方向

TenkiBench的出现代表了大语言模型评测基准的一个重要进化方向：从通用能力评测转向特定场景、特定地域的实用能力评测。这种转变反映了AI应用落地的真实需求——企业关心的不是模型在通用基准上的分数，而是它能否解决自己的实际问题。

对于挪威的中小企业来说，TenkiBench提供了一个客观、透明的模型选型参考。对于AI研究者和开发者来说，它揭示了当前大语言模型在本地化、专业化场景下的能力边界，为未来的改进指明了方向。

随着大语言模型在各行业的深入应用，我们可以预见，类似TenkiBench这样的地域化、行业化评测基准将会越来越多。它们将共同构成一个更加丰富、更加实用的模型能力评估生态，推动AI技术真正服务于各行各业的实际需求。

---

**项目链接**：[https://github.com/tenki-labs/tenkibench](https://github.com/tenki-labs/tenkibench)

**在线评测**：[https://bench.tenki.no](https://bench.tenki.no)

**联系方式**：einar@tenki.no

**许可证**：代码采用MIT License，评测任务采用CC BY 4.0（需注明出处）
