正文

CLEAR框架：让多模态大模型在模糊、噪点、低光照下依然"看得清"

本文介绍CLEAR框架，通过生成-理解联合优化，解决统一多模态模型在图像退化场景下的理解能力问题。

多模态模型图像退化图像修复生成模型CLEAR框架计算机视觉人工智能

发布时间 2026/04/06 23:54最近活动 2026/04/07 15:58预计阅读 2 分钟

章节 01

【导读】CLEAR框架：让多模态大模型在退化图像下依然"看得清"

本文介绍CLEAR框架，通过生成-理解联合优化，解决统一多模态模型在模糊、噪点、低光照等图像退化场景下的理解能力问题。该框架通过三步打通生成与理解的连接，实验结果显示在退化图像上表现显著提升，且不影响清晰图像的正常表现，具有广泛的实际应用前景。

章节 02

现实世界中图像常存在模糊、噪声、低光照等退化问题，当前多模态大模型在这类图像上理解能力急剧下降。统一多模态模型虽整合图像理解与生成能力，但因训练范式缺失（未调用生成能力）和架构断层（解码-重编码信息丢失），无法发挥潜力应对退化图像。

章节 03

CLEAR框架通过三步实现生成与理解的联合优化：

章节 04

研究团队构建MMD-Bench评测基准，覆盖3个退化程度、6个多模态任务。实验显示：

章节 05

消融实验发现：移除像素级重建监督后，模型生成的中间视觉状态感知质量更高。这表明退化图像修复中，任务驱动优化与视觉质量天然对齐，模型应生成"有助于理解"的内容而非像素复刻。

章节 06

CLEAR可应用于：

章节 07

CLEAR框架的意义在于整合生成与理解能力，让AI主动"重建"图像再理解，类似人类认知。未来可探索更复杂退化类型、视频场景、跨模态迁移等方向，推动多模态AI发展。