行人属性识别:一个新的基准数据集和大型语言模型增强框架
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了行人属性识别领域数据集不足且存在饱和性能的问题,提出了一个新的大规模跨领域数据集MSP60K,包含60122张图像和57种属性注释。同时,提出了一种创新的基于大型语言模型增强的行人属性识别框架LLM-PAR,通过视觉Transformer和多嵌入查询Transformer进行特征提取和分类,最终证明该框架在多个基准数据集上的有效性。
本研究提出了MSP60K数据集,包含60122张图像和57种属性注释。同时,提出了LLM-PAR框架,通过视觉Transformer和多嵌入查询Transformer进行特征提取和分类,证明其在多个基准数据集上有效。