该研究利用视觉语言融合方法解决行人属性识别问题,使用预训练的CLIP模型作为骨干网络,通过对比学习和Transformer层捕捉像素之间的关系,最后采用多模态Transformer融合特征并使用前馈网络预测属性。该算法在行人属性识别领域取得了最优结果。
完成下面两步后,将自动完成登录并继续当前操作。