正文

TÜBİTAK数学奥赛基准测试：8款大模型成本与性能深度对比

一项针对8款主流大语言模型在高中数学奥林匹克竞赛题目上的基准测试，揭示了成本与性能之间的复杂权衡关系。

LLMbenchmarkmath reasoningcost-performanceDeepSeekGPT-4ClaudeGemini

发布时间 2026/05/25 08:32最近活动 2026/05/25 08:51预计阅读 4 分钟

章节 01

TÜBİTAK数学奥赛基准测试：8款大模型成本与性能深度对比导读

本测试针对8款主流大语言模型（LLM）在2026年第34届TÜBİTAK高中数学奥赛32道选择题上的表现进行对比，核心发现为：部分模型性能趋同（5款满分）但成本差异显著（最高与最低满分模型成本相差22倍），性价比成为LLM选型的关键因素。测试由BYALPERENK在GitHub发布（2026年5月25日），旨在填补传统基准仅关注准确率忽略成本的空白。

章节 02

项目背景与动机

大语言模型快速发展下，开发者和企业面临选型难题：传统基准仅关注准确率，却忽略成本——相同正确答案，部分模型需支付8美元，另一些仅需0.36美元。本项目选取2026年TÜBİTAK数学奥赛32道选择题作为测试集，对比8款主流模型，分析成本与性能的真实关系。

章节 03

测试设计与方法

数据集构建

采用三层验证将TÜBİTAK官方PDF转换为结构化JSON：

交叉模型转换验证（GPT-4.5、Gemini3.5 Flash、Claude Sonnet4.6提取内容对比）
人工视觉审查（HTML查看器+MathJax检查公式、OCR错误）
结构验证（Python脚本检查字段完整性等）

评估方法

通过OpenRouter API发送题目，统一提示要求模型用数学推理选唯一答案并按特定格式输出。所有模型启用推理模式，温度参数不设置以保证可比性。答案通过正则表达式提取最后一个匹配项。

章节 04

核心发现

DeepSeek v4 Pro性价比之王：0.36美元总成本实现100%准确率，比同满分的Claude Sonnet4.6（8.01美元）便宜22倍。
5款模型满分：DeepSeek v4 Pro、GPT-4.5、Mistral Medium3.5、Qwen3.7 Max、Claude Sonnet4.6均获100%准确率，说明该难度下模型能力已饱和。
token效率差异大：GPT-4.5仅用81K输出token，Mistral Medium3.5用769K（近10倍），影响延迟和配额。
Gemini3.5 Flash平衡之选：1.22美元成本获96.88%准确率，适合无需完美表现的场景。
最便宜≠最划算：Grok4.3单次正确成本最低（0.0107美元），但准确率仅87.5%，需权衡错误成本。

章节 05

完整测试结果

模型	准确率	输入token	输出token	总成本	单次正确答案成本
Claude Sonnet 4.6	100.00%	8,597	532,192	$8.01	$0.2503
DeepSeek v4 Pro	100.00%	8,087	407,400	$0.36	$0.0112
Mistral Medium 3.5	100.00%	7,954	769,192	$5.78	$0.1807
GPT-4.5	100.00%	7,425	81,633	$2.49	$0.0777
Qwen 3.7 Max	100.00%	7,967	379,019	$2.86	$0.0895
Gemini 3.5 Flash	96.88%	7,520	134,209	$1.22	$0.0393
GLM 5.1	93.75%	7,555	582,747	$1.80	$0.0601
Grok 4.3	87.50%	11,174	114,316	$0.30	$0.0107

全部8个模型测试总成本约22.82美元（2026年5月价格）。

章节 06

成本计算方法

成本基于各模型token使用量和OpenRouter 2026年5月定价：

DeepSeek v4 Pro: 输入$0.435/百万token，输出$0.87/百万token
GLM5.1: $0.98/$3.08
Grok4.3: $1.25/$2.50
Gemini3.5 Flash: $1.50/$9.00
Mistral Medium3.5: $1.50/$7.50
Qwen3.7 Max: $2.50/$7.50
Claude Sonnet4.6: $3.00/$15.00
GPT-4.5: $5.00/$30.00

注意：OpenAI/OpenRouter API中completion_tokens已包含推理token，输出成本仅计算response_tokens避免重复计费。

章节 07

局限性与实际应用启示

局限性

样本量小（n=32），置信区间宽
单次运行，低温下仍可能有差异
价格变动（反映测试当天定价）
OpenRouter路由差异可能影响质量
能力天花板效应（5款满分无法区分前沿模型）
仅看最终答案，不评估推理过程

应用启示

成本敏感场景：选DeepSeek v4 Pro（0.36美元满分）
延迟敏感场景：选GPT-4.5（81K输出token）
可接受小幅错误：选Gemini3.5 Flash（1.22美元，96.88%准确率）
探索性应用：选Grok4.3（单次成本低）

章节 08

总结与展望

本测试揭示趋势：特定难度任务上LLM性能趋于饱和，成本效率成为关键区分维度。企业选型应结合任务难度和成本敏感度，而非盲目追求最强模型。模型提供商需优化推理效率和定价策略。项目开源代码提供可复用框架，未来可扩展到更多学科和难度级别，追踪LLM性价比演进。