基于 CLIP 的可见光 - 红外人员再识别的语义发现网络
原文中文,约300字,阅读约需1分钟。发表于: 。可见 - 红外人员再识别(VIReID)主要处理来自不同模态的人员图像之间的身份匹配,并通过融合高级语义与视觉特征来弥合模态差距。我们提出了一个基于 CLIP 的语义发现网络(CSDN),通过多模态学习的文本标记和集成文本特征来嵌入丰富的高级语义信息,从而促进了视觉特征的模态不变性。在多个常用基准测试上的实验评估证实了我们提出的 CSDN 方法的有效性和优越性。
可见 - 红外人员再识别(VIReID)通过融合高级语义与视觉特征来处理不同模态的人员图像之间的身份匹配。基于 CLIP 的语义发现网络(CSDN)通过多模态学习的文本标记和集成文本特征来嵌入高级语义信息,提高了视觉特征的模态不变性。实验评估证实了 CSDN 方法的有效性和优越性。