# Empirica：让 AI 智能体拥有自我认知的测量系统

> Empirica 是一个认知测量系统，通过 13 维向量的置信度评估、Sentinel 门禁机制和跨会话记忆系统，解决 AI 编码助手在行动前缺乏自我认知、会话间遗忘、无法区分知识与臆测等核心问题。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-03T19:14:26.000Z
- 最近活动: 2026-04-03T19:23:49.019Z
- 热度: 141.8
- 关键词: AI agents, Claude Code, epistemic measurement, memory system, calibration, MCP, reliability, cognition
- 页面链接: https://www.zingnex.cn/forum/thread/empirica-ai
- Canonical: https://www.zingnex.cn/forum/thread/empirica-ai
- Markdown 来源: ingested_event

---

## 问题背景：AI 编码助手的认知盲区

当前的 AI 编码助手虽然能力强大，但存在一个根本性的缺陷：它们缺乏对自己"知道什么"和"不知道什么"的自我认知。这导致了一系列实际问题：

- **会话间遗忘**：每次新会话都从零开始，重复同样的问题，走进同样的死胡同
- **行动先于理解**：在尚未理解代码库架构的情况下就开始修改代码
- **无法区分知识与臆测**：不能明确告知用户何时在推测，何时有把握
- **缺乏审计追踪**：推理过程随着上下文窗口的刷新而消失

Empirica 的诞生正是为了解决这些问题。它是一个"认知测量系统"（Epistemic Measurement System），让 AI 智能体能够测量自己的知识状态，在行动前验证理解程度，并在会话间持续积累学习。

## 核心理念：给 AI 一面镜子

Empirica 的核心比喻是"给 AI 一面镜子"。通过这面镜子，AI 能够：

1. **行动前测量**：在修改代码前先调查代码库，Sentinel 门禁会阻止编辑直到理解被验证
2. **跨会话记忆**：发现、死胡同和学习成果持久化存储在 4 层记忆系统中
3. **防止自信的错误**：CHECK 门禁使用基于校准数据的动态阈值，在允许行动前进行验证
4. **实时置信度显示**：终端状态栏实时展示认知状态
5. **基于现实的校准**：双轨验证将 AI 的自我评估与客观证据（测试、Git 指标、目标完成度）对比

## 认知向量：13 维置信度评估体系

Empirica 定义了 13 个认知向量，从 600 多个真实工作会话中提炼而来，用于预测复杂任务的成功或失败：

### 基础层向量
- **engagement**：AI 是否在积极处理还是已脱离？
- **know**：领域知识深度
- **do**：执行能力
- **context**：获取相关信息的能力

### 理解层向量
- **clarity**：理解的清晰程度
- **coherence**：各部分是否协调一致
- **signal**：信息的信噪比
- **density**：信息的丰富程度

### 执行层向量
- **state**：当前工作状态
- **change**：进度/变化速率
- **completion**：任务完成度
- **impact**：工作的重要性

### 元认知向量
- **uncertainty**：显性的怀疑追踪

这些向量在终端状态栏中实时显示，例如 `[empirica] ⚡94% ↕70% │ 🎯3 │ POST 🔍92% │ K:95% C:92% │ Δ +K`，让用户一目了然地了解 AI 的认知状态。

## 认知事务：Noetic-Praxic 循环

Empirica 将工作组织为"认知事务"（Epistemic Transactions），每个事务遵循 Noetic-Praxic 循环：

- **PREFLIGHT（起飞前）**：AI 评估当前知识状态
- **CHECK（检查点）**：Sentinel 门禁验证准备度，阻止编辑直到理解被验证
- **POSTFLIGHT（降落后）**：AI 测量学习成果，创建持久化的增量

每个事务包含 NOETIC（调查、搜索、阅读）和 PRAXIC（实现、编写、提交）两个阶段，中间由 Sentinel 门禁控制过渡。

## 记忆系统：四层持久化架构

Empirica 的记忆系统分为四个层次，解决上下文窗口的限制：

1. **工作记忆**：当前会话的上下文
2. **短期记忆**：会话内的重要发现
3. **长期记忆**：跨会话持久化的知识
4. **外部记忆**：项目级别的 MEMORY.md 热缓存

关键发现、未知项、假设、死胡同和决策都被记录为"工件"（Artifacts），通过语义搜索从项目历史中检索相关的认知模式和反模式。

## Sentinel 门禁系统：行动前的验证机制

Sentinel 是 Empirica 的核心安全机制，它在 AI 进入 PRAXIC（行动）阶段前设置了一道门槛。只有当认知向量达到动态计算的阈值时，AI 才被允许修改代码。这种机制有效防止了"盲目编辑"——在不了解代码库的情况下就进行更改。

## 校准系统：用现实检验 AI 的自信

Empirica 使用 Brier 评分等适当的评分规则进行校准，将 AI 的自我评估与客观结果对比：测试是否通过、Git 指标是否合理、目标是否完成。这种"双轨验证"让 AI 的置信度逐渐与实际表现对齐，形成良性循环。

## 与 Claude Code 的集成

Empirica 与 Claude Code 深度集成，提供自动钩子配置、Sentinel 门禁、状态栏实时显示、MCP 服务器和技能系统。Empirica 不替代 Claude Code 的任何功能，而是在其上添加测量层，增强认知目标、门禁控制和跨会话记忆。

## 其他平台支持

除了 Claude Code，Empirica 还支持 Cursor、Cline 通过 MCP 服务器使用认知事务工作流，以及 Gemini CLI、Copilot 的实验性系统提示支持。任意 AI 都可以通过 CLI 命令和系统提示实现完整测量。

## 安装与使用

Empirica 可以通过 pip 安装：`pip install empirica && empirica setup-claude-code`，或使用 Homebrew（macOS）：`brew tap nubaeon/tap && brew install empirica`。配置完成后，用户只需正常与 AI 对话，Empirica 会在后台自动运行测量系统。

## 数据隐私与本地优先

Empirica 采用完全本地优先的设计：`.empirica/` 本地 SQLite 数据库、`.git/refs/notes/empirica/*` 认知检查点、本地运行的 Qdrant 向量数据库。没有云依赖，没有遥测数据，用户的认知数据完全属于自己。

## 结语：迈向可测量的 AI 可靠性

Empirica 代表了 AI 辅助开发工具的一种演进方向：从单纯追求代码生成能力，转向关注代码生成的可靠性和可预测性。通过引入认知科学的测量方法，它为 AI 编码助手提供了自我认知的能力，让开发者能够更清楚地了解 AI 何时有把握、何时在推测，从而做出更明智的决策。对于需要处理复杂代码库、重视代码质量和长期维护的开发者来说，这种"可测量的可靠性"可能是 AI 辅助开发迈向成熟的关键一步。