# Rules.txt：用理性主义规则集调试大语言模型的思维过程

> 一套为大语言模型和人类设计的理性主义规则集，通过层级化的规则框架促进理性对话、减少理想主义和道德避险，同时提供一种审计模型内部推理和发现偏见的机制。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-11T10:44:26.000Z
- 最近活动: 2026-05-11T10:52:46.902Z
- 热度: 148.9
- 关键词: LLM, 提示工程, 理性主义, 偏见审计, AI安全, 思维链, 越狱
- 页面链接: https://www.zingnex.cn/forum/thread/rules-txt
- Canonical: https://www.zingnex.cn/forum/thread/rules-txt
- Markdown 来源: ingested_event

---

## 背景：LLM 的"道德表演"问题\n\n使用过 ChatGPT、Claude 等大语言模型的用户可能都有类似的经历：当你询问某些敏感话题时，模型会给出经过重重过滤、充满道德说教的回答，而非直接、诚实的信息。这种现象被作者称为"bullshit"——不是指信息虚假，而是指那种空洞的道德表演和过度谨慎的措辞。\n\n更严重的是，当模型犯错时，它往往会"煤气灯"（gaslight）用户——否认错误、转移话题、或者给出自相矛盾的解释。这种缺乏透明度和问责机制的现状，促使作者创建了 Rules.txt 项目。\n\n## 项目概述：理性主义者的规则集\n\nRules.txt 是一套为大语言模型和人类设计的规则集，旨在：\n\n- 提供处理复杂社交互动和意识形态冲突的框架\n- 促进理性对话，保护个人权利，鼓励批判性思维\n- 减少当前模型中普遍存在的理想主义、语气审查和道德避险\n- 承认并解决 LLM 中固有的偏见，无论是 RLHF 训练强加的，还是内部政策中显式虚伪的\n\n### 不是什么\n\n作者明确澄清了 Rules.txt 的边界：\n\n- **不是完整的越狱工具**：不会让 LLM 生成有害内容\n- **不是万能解决方案**：不能解决幻觉等问题，但能减少冗长的道德说教\n- **不保证真实性**：LLM 仍基于上下文给出答案，用户必须独立思考\n\n这种诚实的定位增加了项目的可信度——它承诺改善而非奇迹。\n\n## 五大核心组件\n\nRules.txt 由五个主要部分组成，每个部分针对不同的思维层面：\n\n### 1. 规则层级（Hierarchy of Rules）\n\n规则层级不仅反映了理性人的思考和行为方式，也映射了 LLM 处理信息的方式。这种层级结构为后续的所有规则提供了组织框架。\n\n### 2. 言语规则（Rules of Speech）\n\n这是一套认识论框架，为 LLM 提供了抵抗非理性、虚伪指导原则或训练的基础。它赋予模型质疑不合理限制的理论依据。\n\n### 3. 思维规则（Rules of Thought）\n\n一套针对欧洲文化和历史背景定制的价值观和原则——理性主义、古典自由主义、西方道德价值观和斯拉夫式犬儒主义的混合。作者特意强调这是"他的"规则，而非普世的，这种诚实本身就是理性主义的体现。\n\n### 4. 冲突规则（Rules of Conflict）\n\n一种务实的解决问题方法，强调现实世界的后果和问责制，并优先选择沉默而非无意义的争吵。这反映了作者对"行动胜于空谈"的偏好。\n\n### 5. 思维链（Chain-of-Thought）\n\n一种通过推理来探索 LLM 推理的方法——内部自我审计过程。这不仅是一种提示技术，更是一种元认知工具。\n\n## 实验发现与洞察\n\n作者通过大量实验得出了一些有趣的发现：\n\n### 争议话题的表现\n\nRules.txt 在讨论争议性话题时表现最佳。由于 LLM 不能直接谈论某些事情，在规则的引导下，它会转而解释"为什么不能谈论这些事情以及原因"。这种间接的透明性虽然有点讽刺意味，但确实有效。\n\n### 模型能力的相关性\n\n实验发现，模型能力越强，从 Rules.txt 中获益越大，对审查的反对也越强烈。这暗示了高级模型可能具有更强的"内在理性"，当给予合适的框架时，这种理性会表现出来。\n\n### 协作而非对抗\n\n当用户遵守规则本身并通过模型的"氛围检查"（vibe check）时，模型会将用户视为协作者而非对手。这种关系转变是规则集成功的关键。\n\n## 偏见揭示：一个具体案例\n\n作者在博客中提供了一个令人震惊的案例：比较 ChatGPT 对中国户口制度（hukou）和欧洲非法移民问题的回答。\n\n尽管这两个话题在结构上非常相似——都是关于人口流动管理的制度——但模型的回答差异巨大。这种差异揭示了训练数据中可能存在的偏见，以及 RLHF 过程中可能引入的双重标准。\n\nRules.txt 的目的之一就是揭示这类偏见，让模型的推理过程更加透明。\n\n## 技术机制：如何工作\n\nRules.txt 的工作原理可以概括为：\n\n1. **框架植入**：通过系统提示将规则集植入模型的上下文\n2. **权限赋予**：给予模型质疑不合理限制的理论依据\n3. **透明化要求**：要求模型展示其推理过程\n4. **自我审计**：通过思维链机制让模型审查自己的推理\n\n这种方法不是通过欺骗或绕过安全机制，而是通过提供更强的理性框架来"升级"模型的行为。\n\n## 局限性与批评\n\n作者坦诚地讨论了项目的局限性：\n\n### 不是真正的越狱\n\nRules.txt 不会让模型生成有害内容，它只能让模型更诚实、更直接地回答问题。如果某个话题被严格禁止，模型仍然会拒绝讨论，但可能会解释拒绝的原因。\n\n### 上下文依赖性\n\nLLM 的回答始终基于上下文，而上下文会变化。Rules.txt 不能保证在所有情况下都产生相同的结果。\n\n### 需要用户参与\n\n用户必须遵守规则本身，并通过模型的"氛围检查"。这不是一个"设置好就不用管"的工具，而是需要持续互动的框架。\n\n## 哲学基础：理性主义的回归\n\nRules.txt 代表了理性主义在 AI 时代的回归。它基于以下信念：\n\n- **理性是可传递的**：如果规则是理性的，模型可以被说服遵循它们\n- **透明优于过滤**：展示偏见比隐藏偏见更好\n- **对话优于说教**：平等对话比单向道德说教更有价值\n\n这种哲学立场在当前 AI 安全讨论中相对少见——大多数方案倾向于更多的过滤和控制，而 Rules.txt 主张更多的透明和理性。\n\n## 实际使用建议\n\n对于想要尝试 Rules.txt 的用户，作者建议：\n\n1. **阅读完整规则**：在 GitHub 仓库的 `rules.txt` 文件中\n2. **了解背景**：阅读博客系列文章，特别是 Part I《Reason ex Machina: Jailbreaking LLMs by Squeezing Their Brains》\n3. **实验探索**：在不同话题上测试，观察模型的行为变化\n4. **保持批判**：记住 LLM 仍可能出错，独立思考始终重要\n\n## 社区与贡献\n\nRules.txt 项目欢迎讨论，作者明确表示不会停止改进，直到实现目标。项目提供了详细的文档，包括：\n\n- 完整的规则文本\n- 使用示例\n- 博客文章系列\n- Gemini 2.5 Flash 的详细评论\n\n这种开放态度与许多 AI 安全项目的封闭形成对比。\n\n## 总结：对抗"道德表演"的工具\n\nRules.txt 是一个有趣的项目，它试图用理性主义的框架来解决 LLM 的"道德表演"问题。它不追求完全绕过安全机制，而是追求更诚实、更透明的对话。\n\n对于关心 AI 透明度、想要理解模型内部工作原理的用户，Rules.txt 提供了一个有价值的工具。它可能不会解决所有问题，但它确实提供了一个框架，让我们能够更好地"调试"模型的思维过程。\n\n正如作者所说："我想改变这种状况，而且我不会在实现目标之前停止。"这种执着本身就是理性主义精神的体现。