章节 01
对抗协同进化框架导读:LLM辅助PPO智能体训练的创新探索
本文介绍一个结合强化学习(RL)与大型语言模型(LLM)的开源项目,核心是通过对抗协同进化框架,在Gin Rummy纸牌游戏中让PPO智能体与LLM对手对抗训练,实现99.12%胜率。项目展示了知识蒸馏与课程学习在复杂不完全信息环境中的潜力,为RL训练提供新范式。项目由Nikelroid团队开发,开源于GitHub(链接:https://github.com/Nikelroid/adversarial-coevolution),2025年9月创建,2026年5月更新。