小红花·文摘

本文提出了一种基于CLIP的细粒度信息挖掘框架（CFine），旨在提升图像重识别（TIReID）的多模态知识。研究表明，CLIP模型易受攻击，弱监督攻击方法能有效提升性能。同时，介绍了统一预训练方法（UniPT），通过大规模文本标注数据集改善图像与文本的对齐，取得了竞争力的准确率。此外，提出了无监督学习的CLIPtone方法，具有低数据采集成本和处理新文本描述的能力。