# AI Agent能否编写高质量的基于属性的测试？

> 该项目尝试复现论文《Can Large Language Models Write Good Property-Based Tests?》的实验，在现代Agent上下文中使用相同提示词，通过Hypothesis库和Codex比较AI生成的属性测试与人类编写的测试。研究探索了AI在软件测试自动化领域的潜力和局限。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-28T18:14:42.000Z
- 最近活动: 2026-05-28T18:29:02.585Z
- 热度: 155.8
- 关键词: AI测试, 属性测试, Hypothesis, 软件测试, Codex, Agent
- 页面链接: https://www.zingnex.cn/forum/thread/ai-agent-261e6606
- Canonical: https://www.zingnex.cn/forum/thread/ai-agent-261e6606
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：CatFatOw
- 来源平台：GitHub
- 原始标题：Can-Agents-Write-Good-Property-Based-Tests
- 原始链接：https://github.com/CatFatOw/Can-Agents-Write-Good-Property-Based-Tests
- 来源发布时间/更新时间：2026-05-28T18:14:42Z

## 软件测试的演进：从示例到属性

软件测试是保证代码质量的核心环节。传统测试方法主要依赖“基于示例的测试”（Example-Based Testing），即开发者编写具体的输入-输出对来验证代码正确性。例如：

```python
def test_add():
    assert add(2, 3) == 5
    assert add(-1, 1) == 0
```

这种方法直观易懂，但存在明显局限：

- **覆盖有限**：只能验证特定输入，无法保证其他输入也正确
- **维护成本高**：需求变化时需要更新大量测试用例
- **边界遗漏**：容易遗漏边界条件和异常情况
- **思维局限**：测试质量取决于开发者能想到的场景

基于属性的测试（Property-Based Testing, PBT）提供了不同的思路。它不指定具体输入，而是定义“属性”——代码应该满足的不变式。测试框架自动生成大量随机输入来验证这些属性。

```python
@given(st.integers(), st.integers())
def test_add_commutative(a, b):
    assert add(a, b) == add(b, a)
```

Python的Hypothesis库是PBT的代表实现，它通过智能的输入生成和缩减策略，能够发现人工难以想到的边界情况。

## AI与测试生成的结合

2023年发表的论文《Can Large Language Models Write Good Property-Based Tests?》首次系统性地研究了LLM生成PBT的能力。研究发现：

- LLM能够理解PBT的概念并生成有效的测试代码
- 但生成的测试质量参差不齐，需要人工审查
- LLM在生成“有意义”的属性方面仍有局限

随着AI Agent技术的进步，测试生成任务是否有了新的可能性？Agent不仅能生成代码，还能迭代改进、执行测试、分析结果——形成一个闭环。

## 项目目标与方法

本项目尝试在“现代Agent上下文”中复现原论文的实验，核心研究问题是：

**AI Agent能否比单次LLM调用生成更高质量的PBT？**

### 实验设计

项目采用对照实验方法：

**实验组：Agent驱动生成**

使用Codex等Agent系统，在迭代循环中生成测试：
1. Agent分析被测代码
2. 生成候选属性
3. 执行测试验证有效性
4. 分析失败原因
5. 迭代改进属性定义

**对照组：单次提示生成**

使用与原论文相同的提示词，单次调用LLM生成测试，不做迭代优化。

**基准组：人工编写**

开发者基于经验手动编写Hypothesis测试，作为质量基准。

### 评估维度

项目从多个维度评估测试质量：

**覆盖率**：生成的测试能达到多少代码覆盖率

**缺陷发现能力**：能否发现已知的或注入的缺陷

**属性意义**：生成的属性是否真正反映了代码的预期行为，而非无意义的恒真式

**代码可读性**：生成的测试代码是否易于理解和维护

**生成效率**：达到同等质量需要多少轮迭代

## 技术实现细节

### Hypothesis库的使用

项目深度使用Hypothesis库，包括：

**策略（Strategies）定义**

策略定义了如何生成测试输入。项目比较AI生成的策略与人类编写的策略：

```python
# 人类可能编写的策略
positive_integers = st.integers(min_value=1)

# AI可能生成的策略
ai_generated_strategy = st.one_of(
    st.integers(),
    st.floats(allow_nan=False)
)
```

**不变式（Invariants）表达**

不变式是PBT的核心。项目评估AI能否生成有意义的不变式：

```python
# 良好的不变式：反映业务逻辑
def test_roundtrip_encoding(data):
    assert decode(encode(data)) == data

# 无意义的不变式：恒真
def test_identity(x):
    assert x == x
```

**状态机测试**

对于复杂系统，Hypothesis支持状态机测试。项目探索AI能否生成有效的状态转换模型。

### Codex Agent集成

项目使用Codex作为Agent后端，利用其：

- **代码理解能力**：分析被测代码的结构和语义
- **上下文窗口**：处理较大的代码库
- **工具使用**：执行测试、读取结果、调用其他工具

## 研究发现与洞察

### 发现一：Agent迭代的价值

实验表明，单次LLM调用与Agent迭代生成之间存在显著差异：

- 单次调用往往生成“安全但平庸”的测试
- Agent通过执行反馈能够逐步改进测试质量
- 迭代3-5轮后，Agent生成的测试接近人工水平

### 发现二：策略生成的挑战

生成有效的Hypothesis策略比生成断言更难：

- AI容易生成过于宽松的策略（生成无效输入）
- 也容易生成过于严格的策略（错过边界情况）
- 需要理解被测代码的输入约束

### 发现三：属性意义的判断

区分“有意义的属性”和“恒真式”是一个核心挑战：

```python
# 恒真式（无意义）
def test_always_true(x):
    assert x is not None or x is None

# 有意义的属性
def test_sort_idempotent(lst):
    assert sorted(sorted(lst)) == sorted(lst)
```

项目探索了自动检测无意义属性的方法。

### 发现四：人机协作的最优模式

最有效的模式似乎是“AI生成+人工审查”：

- AI负责生成候选测试和探索边界情况
- 人类负责判断属性的业务意义
- AI根据反馈迭代改进

## 实际应用价值

### 提升遗留代码的测试覆盖

对于缺乏测试的遗留代码库，Agent可以：

1. 分析代码理解其功能
2. 生成候选PBT
3. 执行并验证测试有效性
4. 输出高质量的基础测试套件

### 辅助测试驱动开发

在TDD流程中，Agent可以：

1. 根据需求描述生成初始测试
2. 在实现代码后验证测试是否通过
3. 建议额外的边界情况测试

### 发现难以察觉的缺陷

PBT的优势在于发现人工难以想到的边界情况。Agent可以放大这一优势：

- 生成大量随机测试
- 自动缩减失败案例到最小复现
- 分析失败模式提出修复建议

## 局限性与未来方向

### 当前局限

**语义理解深度**：AI对代码业务语义的理解仍有限，可能生成技术上正确但业务无意义的测试。

**复杂系统挑战**：对于涉及外部依赖、并发、状态的复杂系统，PBT生成难度显著增加。

**测试维护**：自动生成的测试也需要维护，当代码变更时如何同步更新测试仍是开放问题。

### 未来方向

**强化学习优化**：使用强化学习训练专门的测试生成模型，优化缺陷发现能力。

**跨语言支持**：将方法扩展到Java、Rust等其他语言的PBT框架。

**测试演化**：研究如何随代码演化自动更新测试，保持测试套件的相关性。

## 对软件工程的启示

这个项目触及了AI辅助软件开发的深层问题：

### 测试的本质是什么？

如果AI可以生成测试，人类测试工程师的角色将如何转变？可能的答案是：从“编写测试”转向“定义测试策略”和“评估测试意义”。

### 自动化的边界在哪里？

PBT本身已经自动化了测试执行，AI进一步自动化了测试生成。但“什么值得测试”仍需要人类的业务判断。

### 质量的责任归属

当测试由AI生成时，谁对测试质量负责？这需要新的流程和工具来确保AI生成测试的可信度。

## 结语

Can-Agents-Write-Good-Property-Based-Tests项目不仅是一个技术实验，更是对AI辅助软件测试未来的探索。它表明，在适当的工具支持和迭代反馈下，AI Agent确实能够生成有意义的PBT。

然而，技术能力只是第一步。如何将这些能力整合到开发流程中，如何建立人机协作的最佳实践，如何确保AI生成测试的质量和可维护性，这些仍是需要业界共同探索的问题。

对于关注AI辅助开发的团队来说，这个项目提供了一个很好的起点。它展示了当前技术的能力边界，也为未来的研究和开发指明了方向。