# TÜBİTAK数学奥赛基准测试：8款大模型成本与性能深度对比

> 一项针对8款主流大语言模型在高中数学奥林匹克竞赛题目上的基准测试，揭示了成本与性能之间的复杂权衡关系。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-25T00:32:00.000Z
- 最近活动: 2026-05-25T00:51:00.253Z
- 热度: 159.7
- 关键词: LLM, benchmark, math reasoning, cost-performance, DeepSeek, GPT-4, Claude, Gemini
- 页面链接: https://www.zingnex.cn/forum/thread/tubitak-8
- Canonical: https://www.zingnex.cn/forum/thread/tubitak-8
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者**: BYALPERENK
- **来源平台**: GitHub
- **原始标题**: tubitak-math-olympiad-benchmark
- **原始链接**: https://github.com/BYALPERENK/tubitak-math-olympiad-benchmark
- **发布时间**: 2026年5月25日

---

## 项目背景与动机

在大语言模型（LLM）快速发展的今天，选择哪个模型来完成特定任务成为开发者和企业面临的关键决策。传统基准测试往往只关注准确率，却忽略了同样重要的成本因素。当多个模型都能给出正确答案时，为什么有些需要支付8美元，而另一些只需要0.36美元？

TÜBİTAK数学奥赛基准测试项目正是为了解决这一问题而诞生。该项目选取了2026年第34届土耳其科学技术研究委员会（TÜBİTAK）科学奥林匹克竞赛第一轮高中数学部分的32道选择题作为测试集，通过对比8款主流大语言模型的表现，深入分析成本与性能之间的真实关系。

---

## 测试设计与方法

### 数据集构建

测试数据来源于公开可用的TÜBİTAK官方PDF试卷。为了确保数据质量，作者采用了三层验证方法将PDF转换为结构化JSON格式：

1. **交叉模型转换验证**：使用GPT-4.5、Gemini 3.5 Flash和Claude Sonnet 4.6三款独立模型分别提取内容，对比输出差异，标记模糊问题供人工复核
2. **人工视觉审查**：开发HTML查看器渲染JSON内容，使用MathJax正确显示LaTeX格式的数学公式，检查OCR错误、分数格式、Unicode符号等问题
3. **结构验证**：Python脚本检查字段完整性、重复题目、选项字典格式和分类分布

### 评估方法

每道题目通过OpenRouter API发送给各模型，使用统一的提示模板要求模型：
- 使用数学推理而非猜测
- 在A、B、C、D、E五个选项中选择唯一正确答案
- 以特定格式输出最终答案

所有模型均在推理模式下运行（reasoning: enabled），温度参数不设置以确保结果可比性。答案通过正则表达式从模型回复中提取，取最后一个匹配项作为最终答案。

---

## 核心发现

### 1. DeepSeek v4 Pro：极致性价比

测试结果显示，DeepSeek v4 Pro以仅0.36美元的总成本实现了100%准确率，成为本次测试的性价比之王。相比之下，同样达到100%准确率的最便宜替代方案GPT-4.5需要2.49美元（贵6.9倍），而最贵的Claude Sonnet 4.6则需要8.01美元（贵22倍）。

这一发现对成本敏感型应用具有重要参考价值——相同的答案质量，成本差异可达20倍以上。

### 2. 五款模型达到满分

令人惊讶的是，8款测试模型中有5款在32道题目上全部答对：DeepSeek v4 Pro（$0.36）、GPT-4.5（$2.49）、Mistral Medium 3.5（$5.78）、Qwen 3.7 Max（$2.86）、Claude Sonnet 4.6（$8.01）。

这表明对于高中数学奥赛级别的题目，当前主流推理模型已经能够完美解决。因此，该基准测试更适合作为成本比较工具，而非能力区分测试。

### 3. 输出token效率差异显著

即使同样达到100%准确率，各模型的token使用效率也存在巨大差异：GPT-4.5仅使用81K输出token，而Mistral Medium 3.5却使用了769K输出token（近10倍）。如果应用场景对延迟或token配额敏感，这一差异将产生实质性影响。

### 4. Gemini 3.5 Flash：平衡之选

Gemini 3.5 Flash以1.22美元总成本、96.88%准确率和134K输出token的表现，成为中端市场的有力竞争者。虽然未达到100%准确率，但对于不需要完美表现的场景，这是一个成本效益极佳的选择。

### 5. 最便宜不等于最划算

Grok 4.3以每正确答案仅$0.0107的最低单次成本引人注目，但其整体准确率仅为87.5%。这说明单纯追求低价可能牺牲可靠性，实际应用中需要权衡错误成本与API成本。

---

## 完整测试结果

| 模型 | 准确率 | 输入token | 输出token | 总成本 | 单次正确答案成本 |
|------|--------|-----------|-----------|--------|------------------|
| Claude Sonnet 4.6 | 100.00% | 8,597 | 532,192 | $8.01 | $0.2503 |
| DeepSeek v4 Pro | 100.00% | 8,087 | 407,400 | $0.36 | $0.0112 |
| Mistral Medium 3.5 | 100.00% | 7,954 | 769,192 | $5.78 | $0.1807 |
| GPT-4.5 | 100.00% | 7,425 | 81,633 | $2.49 | $0.0777 |
| Qwen 3.7 Max | 100.00% | 7,967 | 379,019 | $2.86 | $0.0895 |
| Gemini 3.5 Flash | 96.88% | 7,520 | 134,209 | $1.22 | $0.0393 |
| GLM 5.1 | 93.75% | 7,555 | 582,747 | $1.80 | $0.0601 |
| Grok 4.3 | 87.50% | 11,174 | 114,316 | $0.30 | $0.0107 |

全部8个模型的基准测试总成本约为22.82美元（按2026年5月价格）。

---

## 成本计算方法

成本基于各模型的token使用量和OpenRouter官方定价计算（2026年5月快照）。DeepSeek v4 Pro定价为输入$0.435/百万token、输出$0.87/百万token；GLM 5.1为$0.98/$3.08；Grok 4.3为$1.25/$2.50；Gemini 3.5 Flash为$1.50/$9.00；Mistral Medium 3.5为$1.50/$7.50；Qwen 3.7 Max为$2.50/$7.50；Claude Sonnet 4.6为$3.00/$15.00；GPT-4.5为$5.00/$30.00。

值得注意的是，在OpenAI/OpenRouter API中，completion_tokens已经包含推理token，因此输出成本仅计算response_tokens，避免重复计费。

---

## 使用方式

该项目提供了完整的Python评估流水线，支持运行完整基准测试（调用真实API，约$23）、重新分析已有结果、重新生成图表、仅查看评分表等功能。项目要求Python 3.10+，依赖安装后需配置OpenRouter API密钥。

---

## 局限性与注意事项

作者在报告中坦诚指出了该基准测试的局限性：

1. **样本量较小（n=32）**：置信区间较宽，5个100%模型之间无法从统计上区分优劣
2. **单次运行**：推理模型即使在低温下也非完全确定性，重复运行可能产生轻微差异
3. **价格变动**：成本数据反映测试当天的OpenRouter定价，提供商经常调整价格
4. **OpenRouter路由差异**：请求会被转发到当时最便宜/最快的提供商实例，可能引入质量差异
5. **能力天花板效应**：该难度下5个模型都达到满分，无法区分前沿模型的能力差异
6. **无部分得分**：评估仅看最终答案，不看推理过程质量，模型可能通过有缺陷的论证得到正确答案

---

## 实际应用启示

这项研究为LLM选型提供了宝贵的实证数据。对于成本敏感场景，DeepSeek v4 Pro以0.36美元实现满分，是明显的首选，相比Claude Sonnet 4.6可节省超过95%的成本。对于延迟敏感场景，GPT-4.5以81K输出token成为最节俭的满分模型，适合对响应时间有要求的应用。对于可接受小幅错误的场景，Gemini 3.5 Flash以1.22美元成本提供96.88%准确率，是性价比与可靠性的良好平衡。对于探索性应用，Grok 4.3虽然准确率较低，但单次成本最低，适合需要大量尝试的场景。

---

## 总结与展望

TÜBİTAK数学奥赛基准测试揭示了一个重要趋势：在特定难度级别的任务上，大语言模型的性能已经趋于饱和，成本效率成为更重要的区分维度。当多个模型都能完美解决问题时，选择的标准应该从谁能做对转向谁做得更便宜。

这一发现对AI应用开发具有深远意义。企业在选型时不应盲目追求最新最强的模型，而应根据具体任务的难度和成本敏感度做出理性决策。同时，这也对模型提供商提出了新的挑战——在性能趋同的背景下，如何通过优化推理效率和定价策略来赢得市场。

该项目的开源代码和完整方法论为社区提供了一个可复用的评估框架，未来可以扩展到更多学科领域和难度级别，持续追踪大语言模型的性价比演进。