ClearCLIP:倒反天罡,删除两个组件反而可以提升密集预测性能 | ECCV'24 - 晓飞的算法工程笔记
原文中文,约2400字,阅读约需6分钟。发表于: 。来源:晓飞的算法工程笔记 公众号,转载请注明出处 论文: ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference 论文地址:https://arxiv.org/abs/2407.12442 论文代
论文提出ClearCLIP,通过去除残差连接、采用自注意力机制和舍弃前馈网络,提升了CLIP在开放词汇语义分割中的表现。研究表明,残差连接降低了分割质量,而ClearCLIP能够生成更清晰的分割图,改善密集视觉-语言推理任务的效果。