章节 01
导读 / 主楼:TenkiBench:面向挪威中小企业的开源大语言模型评测基准
首个专门针对挪威中小企业实际业务场景的大语言模型评测基准,涵盖发票解析、合同分析、税务计算、法律引用等 8 个真实任务类别。
正文
首个专门针对挪威中小企业实际业务场景的大语言模型评测基准,涵盖发票解析、合同分析、税务计算、法律引用等 8 个真实任务类别。
章节 01
首个专门针对挪威中小企业实际业务场景的大语言模型评测基准,涵盖发票解析、合同分析、税务计算、法律引用等 8 个真实任务类别。
章节 02
挪威作为北欧高福利国家,拥有独特的商业环境和监管体系:
这些特点意味着,一个在通用英语基准上表现优秀的模型,可能在挪威本地业务场景中表现不佳。TenkiBench 正是为了填补这一评估空白而诞生。
章节 03
TenkiBench 精心设计了 8 个评测类别,每个类别都对应挪威中小企业的实际业务需求:
章节 04
挪威发票包含特定的格式和字段:总金额、增值税(MVA)、KID(客户识别号)、到期日、开票方信息等。模型需要准确提取这些结构化数据。
评测方法:数值匹配 + 正则表达式验证
章节 05
测试模型识别保密协议(NDA)、交付协议、雇佣合同中的风险条款能力。这要求模型理解法律文本的细微差别。
评测方法:LLM 裁判 + 评分量表
章节 06
涵盖增值税计算、抵扣问题、纳税义务判断等挪威税务实务。这是中小企业最常遇到的财务问题之一。
评测方法:数值计算 + 正则表达式验证
章节 07
测试模型正确引用挪威法律法规(Lovdata 数据库)的能力。准确的法律引用对于合规咨询至关重要。
评测方法:正则表达式 + 结构验证
章节 08
基于 Brønnøysund 注册中心的公开数据,测试模型查询企业组织信息、签名权、股东角色的能力。
评测方法:JSON Schema 验证