分层视觉基元专家的组合式零样本学习

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

研究人员提出了一种使用Composition Transformer(CoT)框架解决组合式零样本学习(CZSL)中上下文问题、视觉特征可辨识性问题和真实世界组合数据长尾分布问题的简单可扩展方法。CoT框架通过自下而上提取物体嵌入,并通过自上而下建模上下文性的对象引导注意力模块生成属性嵌入。研究人员还开发了少数类属性增广(MAA)方法,通过混合图像和过采样少数类属性合成虚拟样本,解决数据分布不平衡引起的预测偏差。该方法在多个基准测试集上达到最先进性能,展示了CoT在提高视觉辨识能力和解决数据分布不平衡引起的模型偏差方面的有效性。

🎯

关键要点

  • 研究人员提出了一种使用Composition Transformer(CoT)框架的方法来解决CZSL中的上下文问题、视觉特征可辨识性问题和长尾分布问题。
  • CoT框架通过自下而上提取物体嵌入,并通过自上而下的对象引导注意力模块生成属性嵌入。
  • 开发了少数类属性增广(MAA)方法,通过混合图像和过采样少数类属性合成虚拟样本,解决数据分布不平衡引起的预测偏差。
  • 该方法在多个基准测试集上达到了最先进的性能,包括MIT-States、C-GQA和VAW-CZSL。
  • 展示了CoT在提高视觉辨识能力和解决因不平衡数据分布引起的模型偏差方面的有效性。
➡️

继续阅读