# 进化扑克 AI：用遗传算法和神经网络玩德州扑克

> 一个纯 Java 实现的德州扑克 AI 项目，结合蒙特卡洛手牌强度预计算、遗传算法进化和从零构建的前馈神经网络，让机器人在模拟对局中自主学习扑克策略。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-05-31T23:43:51.000Z
- 最近活动: 2026-05-31T23:49:25.146Z
- 热度: 159.9
- 关键词: 遗传算法, 神经网络, 德州扑克, 神经进化, 蒙特卡洛, Java, 不完全信息博弈, 机器学习
- 页面链接: https://www.zingnex.cn/forum/thread/ai-3f31e36a
- Canonical: https://www.zingnex.cn/forum/thread/ai-3f31e36a
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者：** Deven Walsh (dandsw)
- **来源平台：** GitHub
- **原项目名：** evolutionary-poker-ai
- **原项目链接：** https://github.com/dandsw/evolutionary-poker-ai
- **发布时间：** 2026-05-31

---

## 背景：为什么用扑克测试 AI？

扑克是一种不完全信息博弈，玩家必须在不确定的情况下做出决策，同时考虑对手可能的行动。与象棋或围棋不同，扑克玩家无法看到对手的手牌，这使得它成为测试 AI 决策能力的理想环境。

德州扑克要求每个玩家在有限数据下做出决策：估算手牌强度、响应下注行为、管理筹码堆、决定何时弃牌、跟注或加注——而不知道对手持有什么牌。这种不确定性、概率结果、对手行为和长期策略的结合，使扑克成为研究神经进化的绝佳场景。

---

## 项目核心思想

这个项目不采用手动编写规则来决定何时诈唬、弃牌或加注，而是构建了一个通过模拟学习的系统。机器人在相互对局中竞争，根据表现获得适应度分数，并将成功的特征传递给后代。

更广泛的目标是研究决策系统如何在结果不确定且反馈嘈杂的情况下随时间改进——这种模式也出现在商业、经济、销售策略和其他竞争环境中。

---

## 三阶段流水线架构

整个系统分为三个主要阶段，形成一个完整的进化学习闭环：

### 第一阶段：手牌强度预计算

在进化开始之前，系统使用蒙特卡洛模拟预先计算手牌强度表：

- **翻牌前：** 所有 1,326 种两张牌组合对阵随机对手（每次试验随机生成 3 张公共牌）
- **翻牌后：** 每个牌型等级（对子、两对、同花等）的代表性 5 张牌手牌对阵随机 5 张牌手牌

每个场景运行 5,000 次模拟，生成胜率估计值。这些预计算值让机器人在对局中能够即时获得类似权益的信号。

### 第二阶段：游戏模拟

机器人使用神经网络进行弃牌/跟注/加注决策，玩完整的德州扑克手牌。GameEngineSimulator 实现了完整的扑克规则引擎：

- 小盲/大盲注发布
- 发底牌，然后下注轮：翻牌前 → 翻牌 → 转牌 → 河牌
- 底池管理、加注、跟注和弃牌
- 通过最佳 5 张牌（底牌 + 公共牌）比牌决胜
- 当只剩一名玩家时提前获胜
- 淘汰破产机器人；游戏持续到一名幸存者或达到回合上限

### 第三阶段：种群进化

BotSelector 管理每一代的进化过程，采用经典的遗传算法策略：

| 步骤 | 详情 |
|------|------|
| 评估 | 每代 1,000 场五机器人锦标赛（随机桌子分配） |
| 选择 | 按适应度排名前 40% 晋级 |
| 精英主义 | 前 10% 直接复制，不做改变 |
| 变异 | 接下来的 30% 复制并添加权重/偏置噪声（变异率随代数衰减） |
| 交叉 | 剩余 60% 通过均匀交叉填充，父母来自前 40% |

适应度函数奖励筹码增长和赢得的手牌数，同时惩罚退化玩法（例如只弃牌、只加注，或极端的弃牌/加注率）。

---

## 神经网络实现：从零开始

这个项目的独特之处在于，神经网络完全用纯 Java 从零实现，没有使用任何机器学习框架。

### 网络架构

| 层 | 大小 | 激活函数 |
|----|------|----------|
| 输入层 | 9 个特征 | 归一化游戏状态 |
| 隐藏层 1 | 16 个节点 | ReLU |
| 隐藏层 2 | 8 个节点 | ReLU |
| 输出层 | 3 个动作 logits + 1 个加注神经元 | Softmax（动作）；ReLU（加注金额） |

### 输入特征

网络接收 9 个输入特征：

1. 筹码堆比例
2. 手牌强度
3. 游戏阶段
4. 底池大小
5. 回合进度
6. 弃牌计数
7. 加注活动
8. 跟注活动
9. 对手筹码压力

### 动作输出

- **FOLD（弃牌）**
- **CALL（跟注）**
- **RAISE（加注）** — 附带学习的加注金额（在桌子最小加注之上）

### 关键实现细节

- 矩阵乘法跨层计算（9 → 16 → 8 → 4 输出）
- 隐藏单元使用 ReLU 激活（max(0, x)）
- 动作选择使用 Softmax
- 专门的加注神经元用于决定下注大小

重要的是，训练不使用反向传播或梯度下降。相反，神经进化通过选择、变异和交叉基于扑克适应度来调整权重。

---

## 代码结构

```
main
 ├── HandStrengthGenerator（蒙特卡洛预计算）
 └── BotSelector（遗传算法循环）
     ├── PokerBot（代理 + 适应度）
     │   └── NeuralNetwork（策略）
     └── GameEngineSimulator（扑克规则）
         ├── Hand / HandEvaluator
         ├── Deck / Card
         └── BotGenetics（基因组）
```

### 关键文件

| 文件 | 作用 |
|------|------|
| main.java | 入口：预计算强度，启动进化 |
| HandStrengthGenerator.java | 蒙特卡洛手牌强度表 |
| BotSelector.java | GA 循环：模拟、选择、变异、交叉 |
| GameEngineSimulator.java | 完整德州扑克游戏引擎 |
| PokerBot.java | 机器人状态、动作、适应度、最佳手牌选择 |
| NeuralNetwork.java | 从零实现的前馈神经网络（ReLU、softmax、前向传播） |
| BotGenetics.java | 权重/偏置基因组和变异 |
| Hand.java / HandEvaluator.java | 手牌表示和牌型评级 |
| Deck.java / Card.java | 标准 52 张牌组 |

---

## 运行与结果

### 运行方式

```bash
javac *.java
java main
```

### 默认参数

| 参数 | 值 |
|------|-----|
| 代数 | 1,000 |
| 种群大小 | 500 个机器人 |
| 大盲注 | 6 |
| 每局最大回合数 | 200 |
| 起始筹码 | 240 |

注意：启动时会预计算所有两张牌手牌和牌型等级的手牌强度（每个 5,000 次模拟）。这可能需要几分钟时间，然后进化循环才会开始。

### 观察到的进化模式

- **策略收敛：** 经过多代后，机器人行为趋于收敛——后期获胜者倾向于采用相似的平衡策略（混合攻击性、跟注和弃牌）
- **平衡玩法：** 适应度函数鼓励平衡玩法——只弃牌、只跟注或只加注的机器人得分较低
- **挑战性对手：** 进化后的机器人成为更具挑战性的模拟对手，而无需被赋予明确的扑克策略规则

完成后，可以在 `best_bot_weights.txt` 中查看顶级机器人的进化网络权重。

---

## 局限性与未来方向

作者明确指出这是一个受控模拟，用于研究 AI 决策和进化优化，而非生产级扑克求解器。当前局限性包括：

- 机器人性能仅在自定义模拟器中测量
- 手牌强度估计基于蒙特卡洛模拟的近似值
- 模型不使用反向传播、强化学习或对手特定记忆
- 适应度函数强烈影响哪些行为会出现
- 更严格的评估需要将进化机器人与固定基线策略进行比较

---

## 总结

这个项目展示了如何从零开始构建一个完整的神经进化系统。它不依赖外部 ML 库，通过遗传算法和自定义神经网络让 AI 自主学习复杂的扑克策略。对于希望理解神经进化原理、或者想看到纯 Java 实现神经网络的开发者来说，这是一个极佳的学习资源。

项目的价值不仅在于扑克 AI 本身，更在于它提供了一个完整的、自包含的进化学习系统范例，涵盖了预计算、模拟、进化、选择、变异和交叉的完整流程。