Zing 论坛

正文

Mind of Tashi:与小型推理模型的心理博弈对决

Mind of Tashi是一个基于盲承诺机制的对战游戏,玩家与经过微调的小型MoE推理模型(约2亿活跃参数)进行心理博弈。项目展示了如何利用小型本地模型实现复杂的递归推理对抗,并通过llama.cpp在边缘设备上运行,无需云端API。

小型模型推理模型MoEllama.cpp游戏AI心理博弈模型微调GitHub
发布时间 2026/06/09 14:14最近活动 2026/06/09 14:21预计阅读 4 分钟
Mind of Tashi:与小型推理模型的心理博弈对决
1

章节 01

导读:Mind of Tashi——小型推理模型的心理博弈对决

项目基本信息

核心观点 Mind of Tashi是一款基于盲承诺机制的对战游戏,玩家与经过微调的小型MoE推理模型(约2亿活跃参数)进行心理博弈。项目通过llama.cpp在边缘设备运行,无需云端API,展示了小型本地模型实现复杂递归推理对抗的可能性。游戏设定在喜马拉雅山脉的忍者僧侣村落,玩家需攀登AI把守的试炼塔,核心在于预判会叙述自身思考过程的AI对手。

2

章节 02

项目背景与核心机制

项目背景 本项目为Build Small Hackathon第二赛道"An Adventure in Thousand Token Wood"的参赛作品。游戏设定在喜马拉雅山脉迷雾中的忍者僧侣村落,玩家目标是攀登由AI对手把守的试炼塔。

核心机制 游戏的核心是盲承诺对决:每轮玩家与AI同时秘密选择招式,无反应时间,仅依赖预判。AI出招后会揭示其对玩家行为的解读(如"你两次不受惩罚喘息——贪婪,故我出击")。游戏精髓在于递归思维(如"我认为你会出击,故我雾步;我认为你这么想,故我喘息"),这正是推理模型擅长的领域。

3

章节 03

模型架构与技术实现

模型架构 AI对手采用定制MoE(专家混合)模型:总参数量约4亿,每token活跃参数仅约2亿。经过SFT(监督微调)和GRPO训练,支持英语+印地语/梵语(IAST转写)的代码切换风格,比前沿API模型小10-100倍(按活跃参数计)。模型以Q4_K_M GGUF格式分发,通过llama.cpp运行,无需云端API。

技术细节

  • 推理路径:在llm.py实现,包括构建提示(prompts.py)、解析思考过程与JSON招式选择、按人格调整采样温度、语法约束(Oath机制)。
  • 信念计量器:通过token级熵分析实现,熵值升高反映AI不确定性(UI提示);玩家"阅读"AI会提高其采样温度(模拟动摇镇定)。
  • 自定义前端:使用Gradio6的gradio.Server,通过static/index.html呈现喜马拉雅风格界面,分离逻辑与展示层。
4

章节 04

游戏机制深度解析

六招体系

招式 消耗 胜负关系
Vajra Strike(金刚击) 免费 击败擒拿·被格挡阻挡
Mountain Stance(山式/格挡) 免费,+1 prāṇa 阻挡打击,减轻气艺·被擒拿破防
River Throw(河投/擒拿) 免费 破防格挡·输给打击
Draw Breath(调息/聚气) 免费,+2 prāṇa 聚集prāṇa但完全暴露
Prāṇa Art(气艺) 3 prāṇa 强力远程打击·被雾步反制
Mist-Step(雾步) 2 prāṇa 闪避并反击攻击·对谨慎招式无效

资源系统 Prāṇa(生命能量)是核心资源:通过调息和山式积累,用于释放强力招式。节奏博弈明显:频繁调息暴露破绽但积累资源,持续施压阻止对手积累但可能陷入克制不利。

十种人格对手 AI有十种不同人格,各有独特气质、策略和思考预算,同一模型表现出截然不同风格(激进/保守、理性/直觉),提升重玩价值。

5

章节 05

模型微调与训练

SFT阶段 使用自对弈生成的数据集训练,让模型学习特定人格下根据历史记录预测对手行为。数据集包含英语、印地语和梵语(IAST转写)的代码切换内容,使模型能用富有哲学意味的语言叙述思考过程。

GRPO训练 通过GRPO(Group Relative Policy Optimization)进一步微调,优化对抗环境中的决策质量,比SFT更适应动态博弈场景。

6

章节 06

部署方式与局限启示

部署模式

  • 模拟对手模式:无需下载模型,用基于人格的启发式算法模拟AI,适合快速测试。
  • 本地模型模式:通过环境变量配置GGUF模型路径,用llama.cpp加载真实模型。

硬件建议 llama.cpp配合ZeroGPU不稳定,建议在CPU升级的Space运行CPU-only模式,或使用专用GPU Space。回合制延迟(几秒"读取中")增加戏剧张力。

局限与启示

  • 优势:消费级硬件可运行复杂推理,访问模型内部状态(logits/熵),精细控制行为,保障数据隐私。
  • 局限:模型容量限制复杂策略学习,推理速度受本地硬件制约,多语言训练增加复杂性。
  • 启示:精心微调的小型模型可在特定定义明确的任务中展现惊人能力,兼顾可访问性与可控性,为边缘AI和隐私场景提供参考。
7

章节 07

项目总结与价值

项目总结 Mind of Tashi巧妙融合游戏机制与AI能力,不仅是技术演示,更是完整游戏体验,展示了小型推理模型在交互式应用中的潜力。项目构建了完整生态系统:自对弈数据集→模型训练(SFT/GRPO)→部署运行(模拟/本地),为AI驱动应用提供可复用模式。

目标奖项 瞄准Hackathon奖项:Off the Grid(无云端API)、Llama Champion(llama.cpp运行)、Off-Brand(自定义Gradio6前端)、Well-Tuned(微调MoE GGUF模型)。

价值启示 为关注边缘AI、小型模型微调、AI在游戏与交互应用创新的开发者提供丰富灵感与实践经验,证明小型模型在特定场景下的独特价值。