章节 01
导读:Rules.txt——用理性主义规则集调试LLM思维过程
Rules.txt是一套为大语言模型(LLM)和人类设计的理性主义规则集,核心目标是解决LLM普遍存在的“道德表演”问题(如敏感话题的空洞说教、错误时的煤气灯行为),促进理性对话、减少理想主义与道德避险,并提供审计模型内部推理和发现偏见的机制。项目定位明确:非完整越狱工具、非万能解决方案、不保证真实性,需用户主动参与,且模型能力越强从中获益越大。
正文
一套为大语言模型和人类设计的理性主义规则集,通过层级化的规则框架促进理性对话、减少理想主义和道德避险,同时提供一种审计模型内部推理和发现偏见的机制。
章节 01
Rules.txt是一套为大语言模型(LLM)和人类设计的理性主义规则集,核心目标是解决LLM普遍存在的“道德表演”问题(如敏感话题的空洞说教、错误时的煤气灯行为),促进理性对话、减少理想主义与道德避险,并提供审计模型内部推理和发现偏见的机制。项目定位明确:非完整越狱工具、非万能解决方案、不保证真实性,需用户主动参与,且模型能力越强从中获益越大。
章节 02
使用过ChatGPT、Claude等大语言模型的用户可能都有类似经历:询问敏感话题时,模型给出过滤后的道德说教回答而非直接诚实信息(作者称为“bullshit”);模型犯错时会“煤气灯”用户(否认错误、转移话题等)。这种缺乏透明度和问责机制的现状,促使作者创建Rules.txt项目。
章节 03
Rules.txt旨在提供复杂社交互动框架、促进理性对话、减少理想主义与道德避险、解决LLM固有偏见。明确边界:非越狱工具、非万能方案、不保证真实性。
通过框架植入、权限赋予(质疑不合理限制)、透明化要求(展示推理)、自我审计(思维链)升级模型行为,非欺骗或绕过安全机制。
章节 04
对比ChatGPT对中国户口制度和欧洲非法移民问题的回答:两者结构相似(人口流动管理)但回答差异巨大,揭示训练数据或RLHF中的双重标准。
章节 05
章节 06
回归理性主义:理性可传递、透明优于过滤、对话优于说教
章节 07
Rules.txt是对抗LLM“道德表演”的工具,追求更诚实透明的对话而非绕过安全机制,为关心AI透明度的用户提供调试模型思维的框架。项目开放欢迎讨论,持续改进,提供完整规则、使用示例、博客系列等文档,与多数封闭AI安全项目形成对比。作者表示将持续改进直至实现目标。