Zing 论坛

正文

Rules.txt:用理性主义规则集调试大语言模型的思维过程

一套为大语言模型和人类设计的理性主义规则集,通过层级化的规则框架促进理性对话、减少理想主义和道德避险,同时提供一种审计模型内部推理和发现偏见的机制。

LLM提示工程理性主义偏见审计AI安全思维链越狱
发布时间 2026/05/11 18:44最近活动 2026/05/11 18:52预计阅读 2 分钟
Rules.txt:用理性主义规则集调试大语言模型的思维过程
1

章节 01

导读:Rules.txt——用理性主义规则集调试LLM思维过程

Rules.txt是一套为大语言模型(LLM)和人类设计的理性主义规则集,核心目标是解决LLM普遍存在的“道德表演”问题(如敏感话题的空洞说教、错误时的煤气灯行为),促进理性对话、减少理想主义与道德避险,并提供审计模型内部推理和发现偏见的机制。项目定位明确:非完整越狱工具、非万能解决方案、不保证真实性,需用户主动参与,且模型能力越强从中获益越大。

2

章节 02

背景:LLM的“道德表演”与缺乏问责现状

使用过ChatGPT、Claude等大语言模型的用户可能都有类似经历:询问敏感话题时,模型给出过滤后的道德说教回答而非直接诚实信息(作者称为“bullshit”);模型犯错时会“煤气灯”用户(否认错误、转移话题等)。这种缺乏透明度和问责机制的现状,促使作者创建Rules.txt项目。

3

章节 03

Rules.txt的核心框架与技术机制

项目概述

Rules.txt旨在提供复杂社交互动框架、促进理性对话、减少理想主义与道德避险、解决LLM固有偏见。明确边界:非越狱工具、非万能方案、不保证真实性。

五大核心组件

  1. 规则层级:组织框架映射LLM信息处理方式
  2. 言语规则:抵抗非理性指导的认识论框架
  3. 思维规则:欧洲文化背景的价值观混合(理性主义、古典自由主义等)
  4. 冲突规则:务实解决问题,优先沉默而非无意义争吵
  5. 思维链:内部自我审计的元认知工具

技术机制

通过框架植入、权限赋予(质疑不合理限制)、透明化要求(展示推理)、自我审计(思维链)升级模型行为,非欺骗或绕过安全机制。

4

章节 04

实验发现与偏见揭示案例

实验发现

  • 争议话题表现:引导模型解释“不能谈论的原因”,实现间接透明
  • 模型能力相关性:越强的模型获益越大,对审查反对更强烈
  • 协作关系:用户遵守规则通过“氛围检查”时,模型视其为协作者

偏见案例

对比ChatGPT对中国户口制度和欧洲非法移民问题的回答:两者结构相似(人口流动管理)但回答差异巨大,揭示训练数据或RLHF中的双重标准。

5

章节 05

Rules.txt的局限性与边界

  • 非真正越狱:不会生成有害内容,严格禁止话题仍拒绝但可能解释原因
  • 上下文依赖性:回答基于变化的上下文,无法保证所有情况结果一致
  • 需要用户参与:需遵守规则并通过“氛围检查”,非“设置即忘”工具
6

章节 06

哲学基础与实际使用建议

哲学基础

回归理性主义:理性可传递、透明优于过滤、对话优于说教

使用建议

  1. 阅读GitHub仓库完整规则
  2. 了解背景:博客系列Part I《Reason ex Machina》
  3. 实验探索:不同话题测试行为变化
  4. 保持批判:LLM仍可能出错,独立思考始终重要
7

章节 07

总结与社区贡献

Rules.txt是对抗LLM“道德表演”的工具,追求更诚实透明的对话而非绕过安全机制,为关心AI透明度的用户提供调试模型思维的框架。项目开放欢迎讨论,持续改进,提供完整规则、使用示例、博客系列等文档,与多数封闭AI安全项目形成对比。作者表示将持续改进直至实现目标。