Zing 论坛

正文

llm-eval:面向本地大语言模型的自托管评估框架

一套专为本地大语言模型设计的自托管评估系统,支持通过 llama.cpp 的 OpenAI 兼容端点进行多维度能力测试,涵盖推理、编程、代码质量、指令遵循、长上下文和写作等核心能力,并提供基础与困难两级难度测试及思考模式开关对比功能。

LLM评估本地模型llama.cpp模型对比推理测试代码生成开源工具
发布时间 2026/05/14 04:07最近活动 2026/05/14 04:20预计阅读 2 分钟
llm-eval:面向本地大语言模型的自托管评估框架
1

章节 01

llm-eval:本地大语言模型自托管评估框架核心导读

llm-eval是专为本地大语言模型设计的自托管评估框架,基于llama.cpp的OpenAI兼容端点,支持多维度能力测试(推理、编程、代码质量等),提供基础/困难两级难度及思考模式开关对比功能,帮助开发者在本地环境快速可靠评估模型能力。

2

章节 02

项目背景与核心目标

llm-eval填补了本地LLM评估工具的空白,核心目标是帮助开发者和研究人员在本地环境中快速、可靠地评估不同模型的实际能力。相比云端API评估方案,它支持完全本地化离线运行,保护数据隐私,让使用者获得可信赖的模型能力画像。

3

章节 03

评估方法与测试能力维度

核心设计理念

  • 可复现对比:固定提示集+程序化评分,确保结果一致可比;
  • 分层难度:基础层(底线检验)与困难层(区分顶尖模型差距);
  • 思考模式对比:支持同一模型开启/关闭思考模式的表现对比。

测试能力维度

覆盖推理、编程、代码质量、指令遵循、长上下文检索、写作、工具调用7大核心能力。

评估机制

  • 程序化评分为主:自动化校验数值、代码单元测试、格式检查等;
  • 量表评分为辅:写作等维度采用结构化量表人工评分。
4

章节 04

主流模型评估结果与关键发现

项目已测试Gemma-4-26B-A4B、Gemma-4-31B、Qwen3.6-35B-A3B、Qwen3.5-122B-A10B等模型:

  • Gemma系列基础层通过率约98%,31B密集模型困难层略胜,26B稀疏模型存在过度思考截断问题;
  • Qwen3.6-35B-A3B位居第三;
  • Qwen3.5-122B-A10B因激进Q3量化策略,性能落后于Qwen3.6(参数量仅其四分之一),凸显量化策略重要性。
5

章节 05

本地评估使用流程

  1. 使用llama.cpp启动模型服务,启用Jinja模板支持获取推理轨迹;
  2. 运行评估脚本,指定模型标签、测试能力范围和思考模式;
  3. 使用报告生成脚本转换结果为对比报告; 全程可本地离线完成,保护数据隐私。
6

章节 06

项目局限性与使用建议

局限性

当前版本不测试长周期Agent循环、多步工具链、多文件协作或创新性综合任务。

使用建议

评估结果优异≠模型适用于所有场景,用户需结合实际需求综合判断模型适用性。