Zing 论坛

正文

TenkiBench:面向挪威中小企业的开源大语言模型评测基准

本文介绍TenkiBench项目,这是一个专门针对挪威中小企业实际业务场景设计的开源大语言模型评测基准,涵盖发票解析、合同分析、税务计算等真实任务。

大语言模型评测基准挪威语中小企业发票解析合同分析税务计算开源项目
发布时间 2026/05/06 09:43最近活动 2026/05/06 10:24预计阅读 3 分钟
TenkiBench:面向挪威中小企业的开源大语言模型评测基准
1

章节 01

TenkiBench:面向挪威中小企业的开源LLM评测基准导读

TenkiBench是由Tenki Labs开发维护的开源大语言模型评测基准,专门针对挪威中小企业(SMB)实际业务场景设计。它填补了通用评测基准在地域化、行业化场景覆盖的空白,涵盖发票解析、合同分析、税务计算等八大核心任务,为企业选型AI工具提供客观参考,也为AI开发者指明本地化改进方向。

2

章节 02

项目背景:挪威中小企业需求与通用基准的不足

主流LLM评测基准(如GLUE、MMLU)多聚焦通用知识或英语场景,难以满足特定地域行业需求。挪威商业环境独特:复杂税收法规、两种书面挪威语(Bokmål/Nynorsk)、Brønnøysund企业注册中心等本地化文档处理需求。挪威中小企业关心的是AI能否准确处理本地发票、税务计算、法律条款等,这些正是TenkiBench诞生的背景。

3

章节 03

核心任务:八大类别覆盖中小企业日常场景

TenkiBench包含八大评测任务:

  1. 发票解析:提取总金额、MVA(增值税)、KID号码等结构化信息;
  2. 合同分析:识别NDA、雇佣合同等风险条款;
  3. 税务计算:验证增值税率应用、抵扣判断等税法理解能力;
  4. 法律引用识别:准确识别挪威法律条文引用;
  5. 企业注册查询:解析Brønnøysund中心的企业信息;
  6. 人力资源与薪酬:回答劳动法相关问题(如病假工资、年假);
  7. 客户服务语气优化:调整回复符合挪威商业沟通规范;
  8. 双语互译:Bokmål与Nynorsk之间准确翻译。
4

章节 04

技术架构与评测方法论:公平透明可复现

技术架构:前端用Next.js+Tailwind CSS,后端PostgreSQL存储数据,通过OpenAI SDK对接Mammouth.ai平台接入多模型,Caddy作为边缘服务器。 评测原则:公平(统一测试集、开源代码)、透明(任务/代码/结果公开)、可复现(提供本地运行指南)。 评估方法:针对不同任务采用数值匹配+正则、LLM-as-judge、JSON模式验证、专家评估等多种方式。

5

章节 05

使用指南:如何利用TenkiBench

  1. 查看公开排行榜:访问bench.tenki.no获取各模型表现;
  2. 本地运行评测:安装依赖后,通过命令(如pnpm bench:run --model=gpt-5)针对特定模型/类别评测;
  3. 贡献新任务:参考项目指南提交挪威商业场景相关的新任务提案。
6

章节 06

局限性与未来展望

局限性:任务仅限挪威语场景,部分hold-out数据非公开(防止过拟合)。 未来方向:扩展至多语言(北欧/欧洲语言)、行业细分(医疗/法律)、动态评测(随时间更新任务)、多模态(处理图片/扫描件)。

7

章节 07

结语:地域化评测基准的进化意义

TenkiBench代表LLM评测从通用能力转向场景化、地域化实用能力的趋势。它为挪威中小企业提供模型选型的客观参考,也帮助AI社区发现本地化能力边界。未来,更多类似的地域化、行业化基准将推动AI真正服务于实际业务需求。 项目链接:https://github.com/tenki-labs/tenkibench | 在线评测:https://bench.tenki.no