# TenkiBench：面向挪威中小企业的开源大语言模型评测基准

> 首个专门针对挪威中小企业实际业务场景的大语言模型评测基准，涵盖发票解析、合同分析、税务计算、法律引用等 8 个真实任务类别。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-06T12:14:23.000Z
- 最近活动: 2026-05-06T12:28:00.470Z
- 热度: 159.8
- 关键词: 大语言模型, 基准测试, 挪威语, 中小企业, 发票解析, 合同分析, 税务计算, LLM评测
- 页面链接: https://www.zingnex.cn/forum/thread/tenkibench-a093c999
- Canonical: https://www.zingnex.cn/forum/thread/tenkibench-a093c999
- Markdown 来源: ingested_event

---

# TenkiBench：面向挪威中小企业的开源大语言模型评测基准

大语言模型（LLM）的评测基准层出不穷，从通用的 MMLU、HumanEval 到专业的 GPQA、SWE-bench，这些基准在推动模型能力提升方面发挥了重要作用。然而，**现有基准大多面向通用能力或英语场景**，对于特定地区、特定行业的实际业务需求覆盖有限。

**TenkiBench** 是一个开创性的开源评测项目，它首次专门针对**挪威中小企业（SMB）**的真实业务场景，构建了一套完整的 LLM 能力评估体系。从发票解析到合同分析，从税务计算到法律引用，TenkiBench 测试的是模型在真实商业环境中的实用价值。

## 项目背景：为什么需要地域化业务基准？

挪威作为北欧高福利国家，拥有独特的商业环境和监管体系：

- **语言特殊性**：挪威同时使用书面挪威语（Bokmål）和新挪威语（Nynorsk），两种官方语言间的翻译是日常业务需求
- **严格的税务体系**：增值税（MVA）计算、税务申报有复杂的规则和例外条款
- **完善的劳动法**：雇佣合同、解雇程序、病假工资等都有明确的法律规定
- **透明的企业注册系统**：Brønnøysund 注册中心提供公开的企业信息查询服务

这些特点意味着，一个在通用英语基准上表现优秀的模型，可能在挪威本地业务场景中表现不佳。TenkiBench 正是为了填补这一评估空白而诞生。

## 评测类别设计：覆盖真实业务场景

TenkiBench 精心设计了 8 个评测类别，每个类别都对应挪威中小企业的实际业务需求：

### 1. 发票解析（faktura）

挪威发票包含特定的格式和字段：总金额、增值税（MVA）、KID（客户识别号）、到期日、开票方信息等。模型需要准确提取这些结构化数据。

**评测方法**：数值匹配 + 正则表达式验证

### 2. 合同分析（kontrakt）

测试模型识别保密协议（NDA）、交付协议、雇佣合同中的风险条款能力。这要求模型理解法律文本的细微差别。

**评测方法**：LLM 裁判 + 评分量表

### 3. 税务计算（mva-skatt）

涵盖增值税计算、抵扣问题、纳税义务判断等挪威税务实务。这是中小企业最常遇到的财务问题之一。

**评测方法**：数值计算 + 正则表达式验证

### 4. 法律引用（lov-referanse）

测试模型正确引用挪威法律法规（Lovdata 数据库）的能力。准确的法律引用对于合规咨询至关重要。

**评测方法**：正则表达式 + 结构验证

### 5. 企业注册查询（brreg）

基于 Brønnøysund 注册中心的公开数据，测试模型查询企业组织信息、签名权、股东角色的能力。

**评测方法**：JSON Schema 验证

### 6. 人力资源与薪酬（hr-lonn）

涵盖工作时间、病假工资、年假、解雇程序等劳动法实务。这些是每个挪威雇主都必须掌握的知识。

**评测方法**：LLM 裁判

### 7. 客户服务语气（kundeservice）

评估模型生成书面挪威语客户服务回复的能力，包括礼貌程度、清晰度和准确性。

**评测方法**：LLM 裁判

### 8. 双语翻译（bokmal-nynorsk）

测试模型在书面挪威语和新挪威语之间的双向翻译能力。这是挪威特有的语言需求。

**评测方法**：LLM 裁判 + 专家验证

## 评测方法论：确保公正与透明

TenkiBench 遵循严格的评测方法论，确保结果的可靠性和可比性：

### 开放透明原则

- **所有任务公开**：评测任务、评估代码、结果全部开源
- **无付费上榜**：模型供应商无需付费即可参与评测
- **独立验证**：欢迎社区提交任务建议和错误报告

### 混合评估策略

针对不同任务类型采用最适合的评估方法：

- **精确匹配任务**（如数值计算、正则提取）：使用自动化脚本验证
- **开放性任务**（如文本生成、翻译）：使用 LLM 裁判结合人工专家验证
- **结构化任务**（如企业数据查询）：使用 JSON Schema 验证

### 保留测试集

为防止模型过拟合公开测试集，TenkiBench 维护了一个**不公开的保留测试集**。公开排行榜基于公开测试集，但最终的权威排名需要经过保留测试集验证。

## 技术实现

TenkiBench 采用现代化的 Web 技术栈构建：

### 前端架构

- **Next.js 16**（独立模式）+ **Tailwind CSS**
- **shadcn/ui** 风格的组件库
- **Recharts** 用于数据可视化
- **TanStack Table** 用于结果表格

### 后端与数据

- **PostgreSQL** 数据库（部署在 Supabase）
- **OpenAI SDK** 对接 Mammouth.ai 聚合 API 服务
- **Caddy** 作为边缘代理处理 TLS

### 评测执行

```bash
# 评测单个模型
pnpm bench:run --model=gpt-5 --provider=mammouth

# 评测所有活跃模型
pnpm bench:run-all

# 评测特定类别
pnpm bench:run --model=claude-opus-4-7 --category=faktura
```

## 在线平台与排行榜

TenkiBench 提供了一个实时更新的在线平台：**bench.tenki.no**

### 公开排行榜

访问首页即可查看各模型在不同类别上的得分排名。排行榜定期更新，反映最新模型的能力进展。

### 管理后台

通过 `/admin` 路径可以访问管理界面（需要 ADMIN_TOKEN 认证），用于：
- 触发新的评测运行
- 管理模型列表
- 查看详细的评测日志

## 社区参与与贡献

TenkiBench 欢迎社区参与，多种贡献方式可供选择：

### 提交新任务

如果你有挪威业务场景的新测试想法，可以按照 `docs/CONTRIBUTING.md` 的指南提交任务建议。

### 专家验证

TenkiBench 正在寻找各领域专家参与结果验证，特别是法律、税务、人力资源等专业领域。详见 `docs/PARTNERS.md`。

### 错误报告

如果发现参考答案（fasit）存在错误，可以提交带有 `task-error` 标签的 Issue。

## 许可证与使用条款

TenkiBench 采用分层许可证策略：

- **代码**：MIT 许可证，自由使用和修改
- **评测任务**：CC BY 4.0，使用时需要注明出处
- **保留测试集**：不公开，确保评测的公正性

## 项目意义与影响

### 对模型开发的指导价值

TenkiBench 为模型开发者提供了明确的优化方向。一个在通用基准上领先的模型，可能在挪威发票解析或法律引用上表现不佳——这种细粒度的反馈有助于针对性地改进模型能力。

### 对企业用户的选型参考

对于挪威的中小企业和 IT 服务商，TenkiBench 提供了客观的模型选型依据。企业可以根据自身的业务重点（如发票处理、合同审查、客服自动化）选择最适合的模型。

### 对地域化 AI 的推动

TenkiBench 的模式可以复制到其他国家和地区。每个地区都有其独特的语言、法律、商业惯例，地域化的评测基准是推动 LLM 真正落地应用的必要基础设施。

## 未来规划

TenkiBench 团队计划持续扩展评测覆盖范围：

- **更多语言变体**：增加对萨米语等少数民族语言的支持
- **行业细分**：针对特定行业（如渔业、石油、航运）构建专项评测
- **多模态扩展**：增加对扫描发票、手写合同等文档的理解评测
- **实时数据集成**：与 Brønnøysund 注册中心 API 实时同步

## 总结

TenkiBench 代表了 LLM 评测基准发展的一个重要方向——**从通用能力评估转向特定场景的业务价值评估**。通过聚焦挪威中小企业的真实需求，它不仅为模型开发者提供了优化方向，也为企业用户提供了选型参考，更为地域化 AI 应用树立了标杆。

随着大语言模型在全球范围内的普及，我们可以期待更多类似的地区化、行业化评测基准涌现，推动 AI 技术真正服务于本地化的商业和社会需求。