基于蛇神人体属性识别的实证研究
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
该研究利用视觉语言融合方法解决行人属性识别问题,使用预训练的CLIP模型作为骨干网络,通过对比学习和Transformer层捕捉像素之间的关系,最后采用多模态Transformer融合特征并使用前馈网络预测属性。该算法在行人属性识别领域取得了最优结果。
🎯
关键要点
- 将行人属性识别问题构建为视觉语言融合问题。
- 利用行人图像与属性标签之间的关系。
- 采用预训练的视觉 - 语言模型 CLIP 作为骨干网络。
- 通过对比学习和 Transformer 层捕捉像素之间的远程关系。
- 使用多模态 Transformer 融合双重特征。
- 采用前馈网络来预测属性。
- 该算法在行人属性识别领域取得了最优结果。
➡️