Zing 论坛

正文

TÜBİTAK数学奥赛基准测试:8款大模型成本与性能深度对比

一项针对8款主流大语言模型在高中数学奥林匹克竞赛题目上的基准测试,揭示了成本与性能之间的复杂权衡关系。

LLMbenchmarkmath reasoningcost-performanceDeepSeekGPT-4ClaudeGemini
发布时间 2026/05/25 08:32最近活动 2026/05/25 08:51预计阅读 4 分钟
TÜBİTAK数学奥赛基准测试:8款大模型成本与性能深度对比
1

章节 01

TÜBİTAK数学奥赛基准测试:8款大模型成本与性能深度对比导读

本测试针对8款主流大语言模型(LLM)在2026年第34届TÜBİTAK高中数学奥赛32道选择题上的表现进行对比,核心发现为:部分模型性能趋同(5款满分)但成本差异显著(最高与最低满分模型成本相差22倍),性价比成为LLM选型的关键因素。测试由BYALPERENK在GitHub发布(2026年5月25日),旨在填补传统基准仅关注准确率忽略成本的空白。

2

章节 02

项目背景与动机

大语言模型快速发展下,开发者和企业面临选型难题:传统基准仅关注准确率,却忽略成本——相同正确答案,部分模型需支付8美元,另一些仅需0.36美元。本项目选取2026年TÜBİTAK数学奥赛32道选择题作为测试集,对比8款主流模型,分析成本与性能的真实关系。

3

章节 03

测试设计与方法

数据集构建

采用三层验证将TÜBİTAK官方PDF转换为结构化JSON:

  1. 交叉模型转换验证(GPT-4.5、Gemini3.5 Flash、Claude Sonnet4.6提取内容对比)
  2. 人工视觉审查(HTML查看器+MathJax检查公式、OCR错误)
  3. 结构验证(Python脚本检查字段完整性等)

评估方法

通过OpenRouter API发送题目,统一提示要求模型用数学推理选唯一答案并按特定格式输出。所有模型启用推理模式,温度参数不设置以保证可比性。答案通过正则表达式提取最后一个匹配项。

4

章节 04

核心发现

  1. DeepSeek v4 Pro性价比之王:0.36美元总成本实现100%准确率,比同满分的Claude Sonnet4.6(8.01美元)便宜22倍。
  2. 5款模型满分:DeepSeek v4 Pro、GPT-4.5、Mistral Medium3.5、Qwen3.7 Max、Claude Sonnet4.6均获100%准确率,说明该难度下模型能力已饱和。
  3. token效率差异大:GPT-4.5仅用81K输出token,Mistral Medium3.5用769K(近10倍),影响延迟和配额。
  4. Gemini3.5 Flash平衡之选:1.22美元成本获96.88%准确率,适合无需完美表现的场景。
  5. 最便宜≠最划算:Grok4.3单次正确成本最低(0.0107美元),但准确率仅87.5%,需权衡错误成本。
5

章节 05

完整测试结果

模型 准确率 输入token 输出token 总成本 单次正确答案成本
Claude Sonnet 4.6 100.00% 8,597 532,192 $8.01 $0.2503
DeepSeek v4 Pro 100.00% 8,087 407,400 $0.36 $0.0112
Mistral Medium 3.5 100.00% 7,954 769,192 $5.78 $0.1807
GPT-4.5 100.00% 7,425 81,633 $2.49 $0.0777
Qwen 3.7 Max 100.00% 7,967 379,019 $2.86 $0.0895
Gemini 3.5 Flash 96.88% 7,520 134,209 $1.22 $0.0393
GLM 5.1 93.75% 7,555 582,747 $1.80 $0.0601
Grok 4.3 87.50% 11,174 114,316 $0.30 $0.0107

全部8个模型测试总成本约22.82美元(2026年5月价格)。

6

章节 06

成本计算方法

成本基于各模型token使用量和OpenRouter 2026年5月定价:

  • DeepSeek v4 Pro: 输入$0.435/百万token,输出$0.87/百万token
  • GLM5.1: $0.98/$3.08
  • Grok4.3: $1.25/$2.50
  • Gemini3.5 Flash: $1.50/$9.00
  • Mistral Medium3.5: $1.50/$7.50
  • Qwen3.7 Max: $2.50/$7.50
  • Claude Sonnet4.6: $3.00/$15.00
  • GPT-4.5: $5.00/$30.00

注意:OpenAI/OpenRouter API中completion_tokens已包含推理token,输出成本仅计算response_tokens避免重复计费。

7

章节 07

局限性与实际应用启示

局限性

  1. 样本量小(n=32),置信区间宽
  2. 单次运行,低温下仍可能有差异
  3. 价格变动(反映测试当天定价)
  4. OpenRouter路由差异可能影响质量
  5. 能力天花板效应(5款满分无法区分前沿模型)
  6. 仅看最终答案,不评估推理过程

应用启示

  • 成本敏感场景:选DeepSeek v4 Pro(0.36美元满分)
  • 延迟敏感场景:选GPT-4.5(81K输出token)
  • 可接受小幅错误:选Gemini3.5 Flash(1.22美元,96.88%准确率)
  • 探索性应用:选Grok4.3(单次成本低)
8

章节 08

总结与展望

本测试揭示趋势:特定难度任务上LLM性能趋于饱和,成本效率成为关键区分维度。企业选型应结合任务难度和成本敏感度,而非盲目追求最强模型。模型提供商需优化推理效率和定价策略。项目开源代码提供可复用框架,未来可扩展到更多学科和难度级别,追踪LLM性价比演进。