章节 01
TÜBİTAK数学奥赛基准测试:8款大模型成本与性能深度对比导读
本测试针对8款主流大语言模型(LLM)在2026年第34届TÜBİTAK高中数学奥赛32道选择题上的表现进行对比,核心发现为:部分模型性能趋同(5款满分)但成本差异显著(最高与最低满分模型成本相差22倍),性价比成为LLM选型的关键因素。测试由BYALPERENK在GitHub发布(2026年5月25日),旨在填补传统基准仅关注准确率忽略成本的空白。
正文
一项针对8款主流大语言模型在高中数学奥林匹克竞赛题目上的基准测试,揭示了成本与性能之间的复杂权衡关系。
章节 01
本测试针对8款主流大语言模型(LLM)在2026年第34届TÜBİTAK高中数学奥赛32道选择题上的表现进行对比,核心发现为:部分模型性能趋同(5款满分)但成本差异显著(最高与最低满分模型成本相差22倍),性价比成为LLM选型的关键因素。测试由BYALPERENK在GitHub发布(2026年5月25日),旨在填补传统基准仅关注准确率忽略成本的空白。
章节 02
大语言模型快速发展下,开发者和企业面临选型难题:传统基准仅关注准确率,却忽略成本——相同正确答案,部分模型需支付8美元,另一些仅需0.36美元。本项目选取2026年TÜBİTAK数学奥赛32道选择题作为测试集,对比8款主流模型,分析成本与性能的真实关系。
章节 03
采用三层验证将TÜBİTAK官方PDF转换为结构化JSON:
通过OpenRouter API发送题目,统一提示要求模型用数学推理选唯一答案并按特定格式输出。所有模型启用推理模式,温度参数不设置以保证可比性。答案通过正则表达式提取最后一个匹配项。
章节 04
章节 05
| 模型 | 准确率 | 输入token | 输出token | 总成本 | 单次正确答案成本 |
|---|---|---|---|---|---|
| Claude Sonnet 4.6 | 100.00% | 8,597 | 532,192 | $8.01 | $0.2503 |
| DeepSeek v4 Pro | 100.00% | 8,087 | 407,400 | $0.36 | $0.0112 |
| Mistral Medium 3.5 | 100.00% | 7,954 | 769,192 | $5.78 | $0.1807 |
| GPT-4.5 | 100.00% | 7,425 | 81,633 | $2.49 | $0.0777 |
| Qwen 3.7 Max | 100.00% | 7,967 | 379,019 | $2.86 | $0.0895 |
| Gemini 3.5 Flash | 96.88% | 7,520 | 134,209 | $1.22 | $0.0393 |
| GLM 5.1 | 93.75% | 7,555 | 582,747 | $1.80 | $0.0601 |
| Grok 4.3 | 87.50% | 11,174 | 114,316 | $0.30 | $0.0107 |
全部8个模型测试总成本约22.82美元(2026年5月价格)。
章节 06
成本基于各模型token使用量和OpenRouter 2026年5月定价:
注意:OpenAI/OpenRouter API中completion_tokens已包含推理token,输出成本仅计算response_tokens避免重复计费。
章节 07
章节 08
本测试揭示趋势:特定难度任务上LLM性能趋于饱和,成本效率成为关键区分维度。企业选型应结合任务难度和成本敏感度,而非盲目追求最强模型。模型提供商需优化推理效率和定价策略。项目开源代码提供可复用框架,未来可扩展到更多学科和难度级别,追踪LLM性价比演进。