正文

Mind of Tashi：与小型推理模型的心理博弈对决

Mind of Tashi是一个基于盲承诺机制的对战游戏，玩家与经过微调的小型MoE推理模型（约2亿活跃参数）进行心理博弈。项目展示了如何利用小型本地模型实现复杂的递归推理对抗，并通过llama.cpp在边缘设备上运行，无需云端API。

小型模型推理模型MoEllama.cpp游戏AI心理博弈模型微调GitHub

发布时间 2026/06/09 14:14最近活动 2026/06/09 14:21预计阅读 4 分钟

章节 01

导读：Mind of Tashi——小型推理模型的心理博弈对决

项目基本信息

原作者/维护者：Mandark-droid
来源平台：GitHub
原始链接：https://github.com/Mandark-droid/mind-of-tashi
发布时间：2026-06-09

核心观点 Mind of Tashi是一款基于盲承诺机制的对战游戏，玩家与经过微调的小型MoE推理模型（约2亿活跃参数）进行心理博弈。项目通过llama.cpp在边缘设备运行，无需云端API，展示了小型本地模型实现复杂递归推理对抗的可能性。游戏设定在喜马拉雅山脉的忍者僧侣村落，玩家需攀登AI把守的试炼塔，核心在于预判会叙述自身思考过程的AI对手。

章节 02

项目背景与核心机制

项目背景 本项目为Build Small Hackathon第二赛道"An Adventure in Thousand Token Wood"的参赛作品。游戏设定在喜马拉雅山脉迷雾中的忍者僧侣村落，玩家目标是攀登由AI对手把守的试炼塔。

核心机制 游戏的核心是盲承诺对决：每轮玩家与AI同时秘密选择招式，无反应时间，仅依赖预判。AI出招后会揭示其对玩家行为的解读（如"你两次不受惩罚喘息——贪婪，故我出击"）。游戏精髓在于递归思维（如"我认为你会出击，故我雾步；我认为你这么想，故我喘息"），这正是推理模型擅长的领域。

章节 03

模型架构与技术实现

模型架构 AI对手采用定制MoE（专家混合）模型：总参数量约4亿，每token活跃参数仅约2亿。经过SFT（监督微调）和GRPO训练，支持英语+印地语/梵语（IAST转写）的代码切换风格，比前沿API模型小10-100倍（按活跃参数计）。模型以Q4_K_M GGUF格式分发，通过llama.cpp运行，无需云端API。

技术细节

推理路径：在llm.py实现，包括构建提示（prompts.py）、解析思考过程与JSON招式选择、按人格调整采样温度、语法约束（Oath机制）。
信念计量器：通过token级熵分析实现，熵值升高反映AI不确定性（UI提示）；玩家"阅读"AI会提高其采样温度（模拟动摇镇定）。
自定义前端：使用Gradio6的gradio.Server，通过static/index.html呈现喜马拉雅风格界面，分离逻辑与展示层。

章节 04

游戏机制深度解析

六招体系

招式	消耗	胜负关系
Vajra Strike（金刚击）	免费	击败擒拿·被格挡阻挡
Mountain Stance（山式/格挡）	免费，+1 prāṇa	阻挡打击，减轻气艺·被擒拿破防
River Throw（河投/擒拿）	免费	破防格挡·输给打击
Draw Breath（调息/聚气）	免费，+2 prāṇa	聚集prāṇa但完全暴露
Prāṇa Art（气艺）	3 prāṇa	强力远程打击·被雾步反制
Mist-Step（雾步）	2 prāṇa	闪避并反击攻击·对谨慎招式无效

资源系统 Prāṇa（生命能量）是核心资源：通过调息和山式积累，用于释放强力招式。节奏博弈明显：频繁调息暴露破绽但积累资源，持续施压阻止对手积累但可能陷入克制不利。

十种人格对手 AI有十种不同人格，各有独特气质、策略和思考预算，同一模型表现出截然不同风格（激进/保守、理性/直觉），提升重玩价值。

章节 05

模型微调与训练

SFT阶段 使用自对弈生成的数据集训练，让模型学习特定人格下根据历史记录预测对手行为。数据集包含英语、印地语和梵语（IAST转写）的代码切换内容，使模型能用富有哲学意味的语言叙述思考过程。

GRPO训练 通过GRPO（Group Relative Policy Optimization）进一步微调，优化对抗环境中的决策质量，比SFT更适应动态博弈场景。

章节 06

部署方式与局限启示

部署模式

模拟对手模式：无需下载模型，用基于人格的启发式算法模拟AI，适合快速测试。
本地模型模式：通过环境变量配置GGUF模型路径，用llama.cpp加载真实模型。

硬件建议 llama.cpp配合ZeroGPU不稳定，建议在CPU升级的Space运行CPU-only模式，或使用专用GPU Space。回合制延迟（几秒"读取中"）增加戏剧张力。

局限与启示

优势：消费级硬件可运行复杂推理，访问模型内部状态（logits/熵），精细控制行为，保障数据隐私。
局限：模型容量限制复杂策略学习，推理速度受本地硬件制约，多语言训练增加复杂性。
启示：精心微调的小型模型可在特定定义明确的任务中展现惊人能力，兼顾可访问性与可控性，为边缘AI和隐私场景提供参考。

章节 07

项目总结与价值

项目总结 Mind of Tashi巧妙融合游戏机制与AI能力，不仅是技术演示，更是完整游戏体验，展示了小型推理模型在交互式应用中的潜力。项目构建了完整生态系统：自对弈数据集→模型训练（SFT/GRPO）→部署运行（模拟/本地），为AI驱动应用提供可复用模式。

目标奖项 瞄准Hackathon奖项：Off the Grid（无云端API）、Llama Champion（llama.cpp运行）、Off-Brand（自定义Gradio6前端）、Well-Tuned（微调MoE GGUF模型）。

价值启示 为关注边缘AI、小型模型微调、AI在游戏与交互应用创新的开发者提供丰富灵感与实践经验，证明小型模型在特定场景下的独特价值。

Mind of Tashi：与小型推理模型的心理博弈对决

导读：Mind of Tashi——小型推理模型的心理博弈对决

项目背景与核心机制

模型架构与技术实现

游戏机制深度解析

模型微调与训练

部署方式与局限启示

项目总结与价值

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

从零开始搭建AWS生成式AI应用：EC2+Bedrock实战教程