正文

Rules.txt：用理性主义规则集调试大语言模型的思维过程

一套为大语言模型和人类设计的理性主义规则集，通过层级化的规则框架促进理性对话、减少理想主义和道德避险，同时提供一种审计模型内部推理和发现偏见的机制。

LLM提示工程理性主义偏见审计AI安全思维链越狱

发布时间 2026/05/11 18:44最近活动 2026/05/11 18:52预计阅读 2 分钟

章节 01

导读：Rules.txt——用理性主义规则集调试LLM思维过程

Rules.txt是一套为大语言模型（LLM）和人类设计的理性主义规则集，核心目标是解决LLM普遍存在的“道德表演”问题（如敏感话题的空洞说教、错误时的煤气灯行为），促进理性对话、减少理想主义与道德避险，并提供审计模型内部推理和发现偏见的机制。项目定位明确：非完整越狱工具、非万能解决方案、不保证真实性，需用户主动参与，且模型能力越强从中获益越大。

章节 02

背景：LLM的“道德表演”与缺乏问责现状

使用过ChatGPT、Claude等大语言模型的用户可能都有类似经历：询问敏感话题时，模型给出过滤后的道德说教回答而非直接诚实信息（作者称为“bullshit”）；模型犯错时会“煤气灯”用户（否认错误、转移话题等）。这种缺乏透明度和问责机制的现状，促使作者创建Rules.txt项目。

章节 03

Rules.txt的核心框架与技术机制

项目概述

Rules.txt旨在提供复杂社交互动框架、促进理性对话、减少理想主义与道德避险、解决LLM固有偏见。明确边界：非越狱工具、非万能方案、不保证真实性。

五大核心组件

规则层级：组织框架映射LLM信息处理方式
言语规则：抵抗非理性指导的认识论框架
思维规则：欧洲文化背景的价值观混合（理性主义、古典自由主义等）
冲突规则：务实解决问题，优先沉默而非无意义争吵
思维链：内部自我审计的元认知工具

技术机制

通过框架植入、权限赋予（质疑不合理限制）、透明化要求（展示推理）、自我审计（思维链）升级模型行为，非欺骗或绕过安全机制。

章节 04

实验发现与偏见揭示案例

实验发现

争议话题表现：引导模型解释“不能谈论的原因”，实现间接透明
模型能力相关性：越强的模型获益越大，对审查反对更强烈
协作关系：用户遵守规则通过“氛围检查”时，模型视其为协作者

偏见案例

对比ChatGPT对中国户口制度和欧洲非法移民问题的回答：两者结构相似（人口流动管理）但回答差异巨大，揭示训练数据或RLHF中的双重标准。

章节 05

Rules.txt的局限性与边界

非真正越狱：不会生成有害内容，严格禁止话题仍拒绝但可能解释原因
上下文依赖性：回答基于变化的上下文，无法保证所有情况结果一致
需要用户参与：需遵守规则并通过“氛围检查”，非“设置即忘”工具

章节 06

哲学基础与实际使用建议

哲学基础

回归理性主义：理性可传递、透明优于过滤、对话优于说教

使用建议

阅读GitHub仓库完整规则
了解背景：博客系列Part I《Reason ex Machina》
实验探索：不同话题测试行为变化
保持批判：LLM仍可能出错，独立思考始终重要

章节 07

总结与社区贡献

Rules.txt是对抗LLM“道德表演”的工具，追求更诚实透明的对话而非绕过安全机制，为关心AI透明度的用户提供调试模型思维的框架。项目开放欢迎讨论，持续改进，提供完整规则、使用示例、博客系列等文档，与多数封闭AI安全项目形成对比。作者表示将持续改进直至实现目标。