¶æ ·æœ¬å¦ä¹

通过使用 Composition Transformer（CoT）框架，我们提出了一种简单可扩展的方法来解决组合式零样本学习（CZSL）中的上下文问题、视觉特征可辨识性问题和真实世界组合数据的长尾分布问题；CoT 框架通过底层的自下而上方式提取代表性的物体嵌入，并通过顶层的自上而下方式以一种显式建模上下文性的对象引导注意力模块生成代表性的属性嵌入；我们还开发了一种简单的少数类属性增广（MAA）方法，通过混合两张图像和过采样少数类属性来合成虚拟样本，以解决不平衡的数据分布所引起的预测偏差；我们的方法在多个基准测试集上达到了最先进的性能，包括 MIT-States，C-GQA 和 VAW-CZSL；此外，我们还展示了 CoT 在提高视觉辨识能力和解决因不平衡数据分布而引起的模型偏差方面的有效性。

研究人员提出了一种使用Composition Transformer（CoT）框架解决组合式零样本学习（CZSL）中上下文问题、视觉特征可辨识性问题和真实世界组合数据长尾分布问题的简单可扩展方法。CoT框架通过自下而上提取物体嵌入，并通过自上而下建模上下文性的对象引导注意力模块生成属性嵌入。研究人员还开发了少数类属性增广（MAA）方法，通过混合图像和过采样少数类属性合成虚拟样本，解决数据分布不平衡引起的预测偏差。该方法在多个基准测试集上达到最先进性能，展示了CoT在提高视觉辨识能力和解决数据分布不平衡引起的模型偏差方面的有效性。

观测云	eolink
LigaAI	Dify.AI

åˆ†å±‚è§†è§‰åŸºå…ƒä¸“å®¶çš„ç»„åˆå¼é›¶æ ·æœ¬å­¦ä¹

验证

åˆ†å±‚è§†è§‰åŸºå…ƒä¸“å®¶çš„ç»„åˆå¼é›¶æ ·æœ¬å¦ä¹