BriefGPT - AI 论文速递 ·

HazeCLIP：面向文本指导的现实世界图像去雾

💡 原文中文，约1200字，阅读约需3分钟。

📝

内容提要

本文介绍了一种基于学习的图像去雾域适应模型，该模型结合了图像翻译和去雾模块，通过一致性约束进行训练，以提升去雾效果。实验结果表明，该模型在合成和真实图像中均表现优异。此外，文中还探讨了多种基于CLIP的视觉-语言模型改进方法，显著提升了图像分类、短语定位和视线估计等任务的性能。

🎯

❓

HazeCLIP模型主要用于图像去雾，通过结合图像翻译和去雾模块，利用一致性约束进行训练。

ReCLIP方法是首个无需源数据或目标标记数据的视觉-语言模型领域自适应方法，使用伪标签进行交叉模态自训练。

CLIP-Gaze框架通过个性化上下文优化和视线相关特征的构建，提高了视线估计的泛化能力。

RegionCLIP扩展了CLIP模型，使其能够学习区域级别的视觉表征，从而在目标检测中表现良好。

LaCLIP通过语言重写增强CLIP的训练，具有高语料丰富度且不需要额外计算或内存负载。

CLIP-benchmark用于评估和分析CLIP及其变种，发现数据、监督和模型架构对性能的影响。

🏷️