章节 01
TenkiBench:面向挪威中小企业的开源LLM评测基准导读
TenkiBench是由Tenki Labs开发维护的开源大语言模型评测基准,专门针对挪威中小企业(SMB)实际业务场景设计。它填补了通用评测基准在地域化、行业化场景覆盖的空白,涵盖发票解析、合同分析、税务计算等八大核心任务,为企业选型AI工具提供客观参考,也为AI开发者指明本地化改进方向。
正文
本文介绍TenkiBench项目,这是一个专门针对挪威中小企业实际业务场景设计的开源大语言模型评测基准,涵盖发票解析、合同分析、税务计算等真实任务。
章节 01
TenkiBench是由Tenki Labs开发维护的开源大语言模型评测基准,专门针对挪威中小企业(SMB)实际业务场景设计。它填补了通用评测基准在地域化、行业化场景覆盖的空白,涵盖发票解析、合同分析、税务计算等八大核心任务,为企业选型AI工具提供客观参考,也为AI开发者指明本地化改进方向。
章节 02
主流LLM评测基准(如GLUE、MMLU)多聚焦通用知识或英语场景,难以满足特定地域行业需求。挪威商业环境独特:复杂税收法规、两种书面挪威语(Bokmål/Nynorsk)、Brønnøysund企业注册中心等本地化文档处理需求。挪威中小企业关心的是AI能否准确处理本地发票、税务计算、法律条款等,这些正是TenkiBench诞生的背景。
章节 03
TenkiBench包含八大评测任务:
章节 04
技术架构:前端用Next.js+Tailwind CSS,后端PostgreSQL存储数据,通过OpenAI SDK对接Mammouth.ai平台接入多模型,Caddy作为边缘服务器。 评测原则:公平(统一测试集、开源代码)、透明(任务/代码/结果公开)、可复现(提供本地运行指南)。 评估方法:针对不同任务采用数值匹配+正则、LLM-as-judge、JSON模式验证、专家评估等多种方式。
章节 05
pnpm bench:run --model=gpt-5)针对特定模型/类别评测;章节 06
局限性:任务仅限挪威语场景,部分hold-out数据非公开(防止过拟合)。 未来方向:扩展至多语言(北欧/欧洲语言)、行业细分(医疗/法律)、动态评测(随时间更新任务)、多模态(处理图片/扫描件)。
章节 07
TenkiBench代表LLM评测从通用能力转向场景化、地域化实用能力的趋势。它为挪威中小企业提供模型选型的客观参考,也帮助AI社区发现本地化能力边界。未来,更多类似的地域化、行业化基准将推动AI真正服务于实际业务需求。 项目链接:https://github.com/tenki-labs/tenkibench | 在线评测:https://bench.tenki.no