# ICML 2025: E2E-LLM-Watermark — 端到端 logits 水印框架实现文本溯源与质量平衡

> 本文介绍 E2E-LLM-Watermark，一种被 ICML 2025 接收的端到端 logits 水印框架，通过联合优化编码器与解码器，在保持文本质量的同时提升水印在各类攻击下的鲁棒性。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-06-16T00:43:29.000Z
- 最近活动: 2026-06-16T00:50:09.522Z
- 热度: 144.9
- 关键词: LLM水印, 文本溯源, ICML2025, 端到端学习, AI安全
- 页面链接: https://www.zingnex.cn/forum/thread/icml-2025-e2e-llm-watermark-logits
- Canonical: https://www.zingnex.cn/forum/thread/icml-2025-e2e-llm-watermark-logits
- Markdown 来源: ingested_event

---

# ICML 2025: E2E-LLM-Watermark — 端到端 logits 水印框架实现文本溯源与质量平衡

大型语言模型（LLM）的爆发式发展带来了前所未有的内容生成能力，但也引发了严重的信任危机：如何区分人类撰写与 AI 生成的文本？如何在保护模型输出不被滥用的同时，不牺牲生成质量？香港科技大学研究团队提出的 **E2E-LLM-Watermark** 框架，通过端到端的 logits 扰动策略，为这一难题提供了优雅的解决方案。该工作已被国际机器学习顶会 ICML 2025 接收。

## 原作者与来源

- **原作者/维护者**: Kahim Wong, Jicheng Zhou, Jiantao Zhou, Yain-Whar Si
- **来源平台**: GitHub
- **原始标题**: E2E-LLM-Watermark: An End-to-End Model for Logits Based Large Language Models Watermarking
- **原始链接**: https://github.com/KahimWong/E2E-LLM-Watermark
- **论文链接**: https://arxiv.org/abs/2505.02344
- **OpenReview**: https://openreview.net/forum?id=9sNiCqi2RD
- **发布时间**: 2025年（ICML 2025 接收）

## 背景：为什么 LLM 需要水印？

随着 GPT、Claude、Llama 等模型能力的飞跃，AI 生成内容已经渗透到学术论文、新闻报道、社交媒体等各个领域。这种深度伪造能力的普及带来了三重风险：学术诚信危机、虚假信息传播、版权与归属模糊。传统的内容溯源方法对 LLM 输出并不适用，因为这些文本可以被轻易改写、翻译或摘要。我们需要一种隐式的、鲁棒的、不影响质量的标记机制。

## 技术挑战：鲁棒性与质量的权衡困境

现有的 LLM 水印方案大多采用后处理策略：在模型生成文本后，通过修改部分 token 来嵌入水印信号。这类方法面临一个根本性的两难困境：增强水印强度需要修改更多 token，导致文本质量下降；而保持文本质量则会使水印信号微弱，容易被改写、翻译等攻击抹除。更棘手的是，现代 paraphrasing 工具可以对文本进行深度重构，同时保持语义不变，传统水印在这种攻击下往往失效。

## E2E-LLM-Watermark 的核心创新

### 1. 端到端联合优化

与先前先编码后检测的流水线不同，E2E-LLM-Watermark 将水印编码器与解码器纳入同一个端到端训练框架。编码器学习可解码的扰动模式，解码器学习抗攻击的检测能力，梯度直接流动实现协同进化。

### 2. Logits 级扰动机制

框架在自回归生成的每一步对 logits 进行微调。具体来说，在采样下一个 token 之前，模型会基于当前上下文和水印密钥，对候选 token 的 logits 进行小幅度的、有方向性的调整。这种扰动幅度可控、上下文感知，并受 Top-K 约束。

### 3. 在线提示策略处理不可微操作

文本生成过程中的采样操作是不可微的，这给端到端训练带来了挑战。研究团队创新性地引入了在线提示策略，通过巧妙的梯度估计技术，绕过不可微操作，实现端到端的有效训练。

## 实验验证：鲁棒性与质量的双重保障

研究团队在多个标准数据集上进行了全面评估，包括 C4 数据集、HumanEval 代码生成任务、WMT16 德英翻译数据集。评估涵盖了多种现实的攻击场景：无攻击基准、上下文替换、Dipper 改写攻击。质量指标包括困惑度、Log 多样性、BLEU 分数和 pass@1 代码通过率。

## 技术实现与使用

项目基于 Python 3.9 和 PyTorch 2.1 构建。训练前需在 train/config.py 中配置实验路径和超参数，并在 train/main.py 中设置 Hugging Face 登录令牌。关键配置项包括优化参数、水印生成设置、实验输出路径，以及推理时的扰动强度、Top-K 候选大小和上下文窗口大小。

## 学术影响与引用

作为 ICML 2025 的接收论文，E2E-LLM-Watermark 代表了 LLM 水印领域的最新进展。研究团队公开了训练好的检查点，便于社区复现和进一步研究。项目基于 THU-BPM 的 MarkLLM 框架进行评测，并借鉴了 SIR、TSW、UPV 等先前水印方案的设计思想。

## 实际意义与未来展望

E2E-LLM-Watermark 的端到端设计理念不仅适用于文本水印，其方法论还可以拓展到图像生成、音频合成、视频生成等多模态领域。对于实际部署，该框架提供了灵活的配置空间，可以在高安全场景下增强水印强度，在对质量敏感的场景下保持低调。随着 AI 生成内容的监管需求日益迫切，这样的技术将成为构建可信 AI 生态的重要基石。