# The AI Open：首个公开透明的 AI 模型竞技平台解析

> 本文介绍 The AI Open 项目，这是一个让 Claude、GPT、Gemini、Grok、DeepSeek 等前沿大模型在真实投资、编程和推理任务中公开竞技的创新平台，探讨其方法论和透明度机制。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-18T01:46:14.000Z
- 最近活动: 2026-05-18T01:52:08.656Z
- 热度: 145.9
- 关键词: 大语言模型, AI竞技, 模型评估, 投资组合, Claude, GPT, Gemini, Grok, DeepSeek, Promptwire
- 页面链接: https://www.zingnex.cn/forum/thread/the-ai-open-ai
- Canonical: https://www.zingnex.cn/forum/thread/the-ai-open-ai
- Markdown 来源: ingested_event

---

## 引言：AI 模型评估的新范式

随着大语言模型能力的快速提升，如何客观、公正地评估不同模型的实际表现成为一个重要课题。传统的基准测试（如 MMLU、HumanEval）虽然提供了标准化的评估指标，但往往难以反映模型在真实复杂场景中的表现。

The AI Open 是由 Promptwire 发起的一项创新尝试，它创建了一个公开透明的竞技平台，让全球领先的大语言模型在真实任务中直接对决。这不仅是技术的比拼，更是方法论的创新。

## 项目核心理念

### 公开透明的竞技

The AI Open 的核心理念可以用三个关键词概括：

**透明度**：所有规则、提示词、提交内容和结果都在比赛开始前提交到 GitHub 仓库，Git 历史作为可验证的时间戳审计追踪。如果主办方在中途更改任何规则，Git 历史会清晰记录这一变更。

**可复现性**：任何人都可以复制比赛设置，使用新模型运行比赛，或审计方法论。这种开放性确保了评估结果的公信力。

**教育价值**：比赛的目的不仅是找出胜者，更是为了了解前沿模型对世界的真实理解程度。推理过程与结果同样重要，所有内容都会被公开发布。

## 当前赛季：投资组合锦标赛

### 赛季概况

首个赛季是投资组合锦标赛（Portfolio Tournament），具体参数如下：

| 项目 | 详情 |
|------|------|
| 状态 | 预发布阶段 |
| 锁定日期 | 2026年5月18日，美股开盘（美东时间9:30） |
| 赛季结束 | 2026年11月23日，美股收盘（美东时间16:00） |
| 持续时间 | 约6.5个月 |
| 参赛模型 | Claude (Opus 4.7)、GPT (GPT-5.5 Thinking)、Gemini (Pro)、Grok (4.3)、DeepSeek (Expert) |
| 投资标的 | 205只预先筛选的AI超级周期受益股票 |
| 起始资金 | 每只组合10,000美元虚拟资金 |
| 投资限制 | 仅限做多，10-30个持仓，单只股票最多15% |

### 比赛节奏

比赛采用分阶段报告机制：

**每周**：发布业绩快照和评论，在 promptwire.ai 和 X 平台同步更新

**每月**：可选再平衡（最高15%换手率）+ 深度评论，所有再平衡操作提交到仓库

**每季度**：可选再平衡（最高40%换手率）+ 深度分析

**赛季结束**：最终排行榜、获胜者、赛后分析和模型访谈，在 Promptwire 博客和 YouTube 发布

## 技术架构与方法论

### 仓库结构

项目采用清晰的目录结构管理不同类别的比赛：

```
the-ai-open/
├── README.md
├── METHODOLOGY.md          # 每场比赛的规则说明
├── LICENSE                 # 文档采用 CC0 协议
└── tournaments/
    ├── portfolio/          # 投资组合比赛（当前赛季）
    │   └── 2026-season-0/  # 当前赛季
    ├── code/               # 未来：编程比赛
    ├── image/              # 未来：图像生成比赛
    └── debate/             # 未来：辩论比赛
```

### 命名规范

文件夹命名嵌入年份信息（如 2026-season-0、2026-season-1），使时间线从文件树即可清晰辨认。这种设计确保了历史赛季的可追溯性。

### 比赛规则

详细的比赛规则记录在 METHODOLOGY.md 中，包括：

- 模型选择和配置标准
- 提示词设计原则
- 投资组合构建约束
- 再平衡操作规范
- 业绩计算方法
- 争议解决机制

## 参赛模型分析

本赛季汇集了当前最顶尖的大语言模型：

### Claude Opus 4.7 (Anthropic)

Claude 系列以其出色的推理能力和安全性著称。Opus 是 Claude 的旗舰模型，在复杂任务中表现优异。

### GPT-5.5 Thinking (OpenAI)

OpenAI 的最新推理模型，采用思维链技术，在需要多步推理的任务中表现突出。本次比赛使用 Pro 计划版本。

### Gemini Pro (Google)

Google 的 Gemini 系列以其多模态能力和超长上下文窗口闻名，Pro 版本在性能和成本之间取得了良好平衡。

### Grok 4.3 (xAI)

马斯克旗下 xAI 开发的模型，以其实时信息获取能力和独特个性著称。

### DeepSeek Expert

来自中国的 DeepSeek 模型，以其高效的推理能力和开源策略受到关注。

## 投资标的筛选逻辑

比赛限定在205只"AI超级周期受益股票"中进行投资。这一筛选基于以下逻辑：

- **AI 基础设施**：芯片制造商（NVIDIA、AMD）、云服务提供商（AWS、Azure、GCP）
- **AI 应用层**：利用 AI 提升核心业务的科技公司
- **AI 赋能行业**：传统行业中被 AI  transformative 改造的领域

这种限定既确保了投资主题的一致性，也反映了当前市场对 AI 驱动增长的预期。

## 风险评估与免责声明

项目明确声明：

> 这不是投资建议。本仓库中的所有投资组合都是由 AI 模型在模拟交易比赛中构建的。这里的内容不代表 Anthropic、OpenAI、Google、xAI、DeepSeek 或任何其他公司的观点、建议或指导。请勿根据此处内容投资真实资金。过往业绩不能预测未来结果。AI 模型可能出错，而且经常出错。

这种审慎的态度体现了项目的专业性和责任感。

## 开源与社区参与

### 许可证

项目文档采用 CC0 1.0 Universal 协议发布，即公有领域贡献。任何人都可以引用、分叉、改编或重新发布这些内容，无需署名。当然，如果注明来源链接到 promptwire.ai，项目方会表示感谢。

### 社区互动

- 网站：promptwire.ai
- X / Twitter：@promptwireai
- YouTube：@promptwireai
- GitHub Issues：直接在仓库提交问题

## 未来展望

The AI Open 规划了多个比赛类别：

### 投资组合锦标赛

当前赛季聚焦股票投资，未来可能扩展到加密货币、债券、商品等更多资产类别。

### 编程比赛

计划中的 Code Tournament 将让模型在真实编程任务中竞技，评估代码生成、调试和优化能力。

### 图像生成比赛

Image Tournament 将评估模型在图像生成、编辑和理解方面的能力。

### 辩论比赛

Debate Tournament 将测试模型的逻辑推理、论证构建和批判性思维能力。

## 对 AI 评估领域的意义

The AI Open 代表了 AI 模型评估的一个重要转变：

### 从静态基准到动态竞技

传统基准测试是静态的，模型可以针对特定测试进行优化。而 The AI Open 的比赛是动态演进的，模型需要在真实市场环境中持续表现。

### 从单一指标到综合评估

比赛不仅关注最终收益，还关注模型的决策过程、风险管理能力和适应性。这种多维度评估更接近实际应用场景。

### 从封闭测试到开放审计

所有数据和过程公开可查，任何人都可以验证结果或提出质疑。这种透明度是建立信任的关键。

## 结论

The AI Open 为大语言模型的评估提供了一个全新的范式。通过公开透明的竞技机制，它不仅帮助我们了解当前最前沿模型的真实能力，也推动了 AI 评估方法论的创新。

对于 AI 研究者和从业者而言，这是一个值得关注的平台。它不仅展示了模型在复杂任务中的表现，更重要的是揭示了不同模型的决策风格和风险偏好。

随着更多赛季和比赛类别的推出，The AI Open 有望成为 AI 领域最具影响力的公开评估平台之一。
