# Mind of Tashi：与小型推理模型的心理博弈对决

> Mind of Tashi是一个基于盲承诺机制的对战游戏，玩家与经过微调的小型MoE推理模型（约2亿活跃参数）进行心理博弈。项目展示了如何利用小型本地模型实现复杂的递归推理对抗，并通过llama.cpp在边缘设备上运行，无需云端API。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-09T06:14:28.000Z
- 最近活动: 2026-06-09T06:21:43.192Z
- 热度: 150.9
- 关键词: 小型模型, 推理模型, MoE, llama.cpp, 游戏AI, 心理博弈, 模型微调, GitHub
- 页面链接: https://www.zingnex.cn/forum/thread/mind-of-tashi
- Canonical: https://www.zingnex.cn/forum/thread/mind-of-tashi
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：Mandark-droid
- 来源平台：github
- 原始标题：mind-of-tashi
- 原始链接：https://github.com/Mandark-droid/mind-of-tashi
- 来源发布时间/更新时间：2026-06-09T06:14:28Z

## 原作者与来源\n\n- 原作者/维护者：Mandark-droid\n- 来源平台：GitHub\n- 原始标题：mind-of-tashi\n- 原始链接：https://github.com/Mandark-droid/mind-of-tashi\n- 来源发布时间/更新时间：2026-06-09T06:14:28Z\n\n## 项目背景与核心概念\n\nMind of Tashi是为Build Small Hackathon第二赛道"An Adventure in Thousand Token Wood"构建的项目。游戏设定在一个隐藏在喜马拉雅山脉迷雾中的忍者僧侣村落，玩家需要攀登一座由AI对手把守的试炼塔。\n\n游戏的核心机制是**盲承诺对决**：每轮玩家和AI同时秘密选择一招，没有反应时间，只有预判。AI对手是一个小型推理模型，关键在于它的"心智"——每次出招后，卷轴会揭示AI是如何解读玩家行为的（"你已经两次不受惩罚地喘息——你很贪婪，所以我出击"）。整个游戏的精髓在于预判一个会叙述它如何预判你的对手。\n\n## 为什么AI是核心机制\n\n剥离AI模型，这个游戏只是石头剪刀剪刀的变体。AI对玩家下一招的**预测本身就是游戏机制**——而且它是**盲猜**的，只能看到历史记录，永远看不到玩家当前的选择。\n\n游戏的标志性招式**Mist-Step（雾步）**只有在对手本回合攻击时才能获得奖励，因此它纯粹是对预判的押注。这种递归思维（"我认为你会出击，所以我雾步/我认为你会这么想，所以我喘息"）正是推理模型擅长处理的。\n\n由于对手是通过**llama.cpp运行的本地小型模型**，游戏可以读取它的**不确定性**：每个token的熵驱动一个**信念计量器**，玩家的阅读会提高它的采样温度（"动摇她的镇定"），而一个消耗prāṇa的**誓言**会从解码语法中删除一招，让它字面意义上无法选择。云端API隐藏了logits；巨型模型无法在CPU Space上流式传输——这正是小型模型类别独特实现的可能性。\n\n## 模型架构：以小博大\n\n对手的心智是一个定制的MoE（专家混合）模型，总参数量约4亿，**每token活跃参数仅约2亿**。经过SFT（监督微调）和GRPO训练，能够用英语+印地语/梵语（IAST转写）的代码切换风格阅读对手并盲承诺——比它学习的前沿API小10到100倍（按活跃参数计算）。\n\n模型以Q4_K_M GGUF格式分发，通过llama.cpp在Space内运行：**运行时无需云端API**。\n\n这种设计选择体现了"小模型"哲学的核心优势：\n- **可访问性**：消费级CPU即可运行\n- **透明性**：可以访问中间logits和不确定性度量\n- **可控性**：可以精细调节采样行为和输出约束\n- **隐私性**：数据不离开本地设备\n\n## 六件关联产物\n\n这个项目是六件关联产物的核心之一：\n\n1. **游戏/Space**——当前项目\n2. **自对弈数据集**——`mind-of-tashi-selfplay`\n3. **SFT模型+GGUF**——`mind-of-tashi-micro-sft`和`sft-gguf`\n4. **OpenEnv环境**——`mind-of-tashi-env`\n5. **GRPO模型+GGUF**——`mind-of-tashi-micro-grpo`和`grpo-gguf`\n6. **部署的Space**——当前运行的实例\n\n这种完整的生态系统展示了从数据生成、模型训练到部署运行的端到端流程。\n\n## 游戏机制深度解析\n\n### 六招体系\n\n| 招式 | 消耗 | 胜负关系 |\n|---|---|---|\n| **Vajra Strike（金刚击）** | 免费 | 击败擒拿·被格挡阻挡 |\n| **Mountain Stance（山式/格挡）** | 免费，+1 prāṇa | 阻挡打击，减轻气艺·被擒拿破防 |\n| **River Throw（河投/擒拿）** | 免费 | 破防格挡·输给打击 |\n| **Draw Breath（调息/聚气）** | 免费，+2 prāṇa | 聚集prāṇa但完全暴露 |\n| **Prāṇa Art（气艺）** | 3 prāṇa | 强力远程打击·被雾步反制 |\n| **Mist-Step（雾步）** | 2 prāṇa | 闪避并反击攻击·对谨慎招式无效 |\n\n### 资源系统：Prāṇa（生命能量）\n\nPrāṇa是游戏的核心资源，通过调息和山式积累，用于释放强力招式。这种设计创造了明显的节奏博弈：频繁调息会暴露破绽，但能积累资源释放决定性的一击；持续施压可以阻止对手积累资源，但可能陷入招式克制关系的不利局面。\n\n### 十种人格对手\n\nAI对手有十种不同的人格（persona），每种都有独特的气质、策略和思考预算。这意味着同一个模型在不同人格下会表现出截然不同的游戏风格，从激进到保守，从理性到直觉，增加了游戏的重玩价值。\n\n## 技术实现细节\n\n### 推理路径\n\n游戏的核心推理在`llm.py`中实现，使用llama.cpp加载GGUF模型。推理过程包括：\n\n1. 构建读取提示（`prompts.py`）\n2. 从回复中解析思考过程和JSON格式的招式选择\n3. 根据人格参数调整采样温度\n4. 可选的语法约束（Oath机制）\n\n### 信念计量器与不确定性\n\n通过分析模型输出的token级熵，游戏实现了**信念计量器**系统。当模型对某个预测不太确定时，熵值升高，这会反映在UI上，给玩家提供微妙的线索。同时，玩家成功"阅读"AI的行为会提高其采样温度，模拟"动摇镇定"的心理效果。\n\n### 自定义前端\n\n游戏使用Gradio 6的`gradio.Server`提供完全自定义的前端界面（`static/index.html`），呈现喜马拉雅迷雾村落的视觉风格。这种架构分离了游戏逻辑和展示层，使得前端可以独立迭代。\n\n## 模型微调与训练\n\n### SFT阶段\n\n监督微调使用自对弈生成的数据集，训练模型学习在特定人格下如何根据历史记录预测对手行为。数据集包含代码切换的英语、印地语和梵语（IAST转写），让模型学会用富有哲学意味的语言叙述其思考过程。\n\n### GRPO训练\n\nGRPO（Group Relative Policy Optimization）进一步微调模型，优化其在对抗环境中的决策质量。相比SFT，GRPO能够让模型更好地适应实际游戏中的动态博弈。\n\n## 部署与运行\n\n项目支持多种运行模式：\n\n**模拟对手模式**：无需下载模型，使用基于人格的启发式算法模拟AI行为，适合快速测试。\n\n**本地模型模式**：通过环境变量配置GGUF模型路径，使用llama.cpp加载真实模型。\n\n**硬件建议**：由于llama.cpp配合ZeroGPU不够稳定，建议在CPU升级的Space上运行CPU-only模式，或使用专用GPU Space。回合制游戏的特性使得几秒的"正在读取你..."延迟反而增加了戏剧张力。\n\n## 奖项目标\n\n项目瞄准了Hackathon的多个奖项：\n\n- **Off the Grid**：模型通过llama.cpp在Space内运行，无需云端API\n- **Llama Champion**：对手通过llama.cpp运行时运行\n- **Off-Brand**：基于`gradio.Server`的完全自定义前端（Gradio 6）\n- **Well-Tuned**：通过`MODEL_REPO`注入微调的自定义MoE GGUF模型\n\n## 局限与启示\n\nMind of Tashi展示了小型模型的独特价值，但也暴露了一些局限：\n\n**优势**：\n- 可在消费级硬件上运行复杂的推理任务\n- 可以访问模型内部状态（logits、熵）\n- 支持精细的行为控制和约束\n- 数据隐私得到保障\n\n**局限**：\n- 模型容量限制了复杂策略的学习能力\n- 推理速度受限于本地硬件\n- 多语言混合训练增加了复杂性\n\n**启示**：对于特定的、定义明确的任务，经过精心微调的小型模型可以提供令人惊讶的能力，同时保持可访问性和可控性。这为边缘AI应用和隐私敏感场景提供了有价值的参考。\n\n## 总结\n\nMind of Tashi是一个巧妙设计的项目，将游戏机制与AI能力深度融合。它不仅仅是一个技术演示，而是一个完整的游戏体验，展示了小型推理模型在交互式应用中的潜力。项目的完整生态系统——从数据生成到模型训练再到部署——为类似的AI驱动应用开发提供了可复用的模式。\n\n对于那些关注边缘AI、小型模型微调、以及AI在游戏和交互应用中创新使用的开发者来说，Mind of Tashi提供了丰富的灵感和实践经验。