强大的视觉表达学习者:重塑 Image-GPT

原文约300字,阅读约需1分钟。发表于:

本文介绍了 D-iGPT,这是对 image-GPT 进行改进的一种方法,通过将预测目标从原始像素转移到语义标记上,实现对视觉内容的更高级理解,并通过预测可见标记来补充自回归建模,实现了更好的效果。实验证明,D-iGPT 在 ImageNet-1K 数据集上取得了令人瞩目的成绩,并在下游任务中表现出较强的泛化能力和在分布外样本上的鲁棒性。

D-iGPT是对image-GPT的改进方法,通过将预测目标转移到语义标记上,实现对视觉内容的高级理解。D-iGPT在ImageNet-1K数据集上取得了令人瞩目的成绩,并在下游任务中表现出较强的泛化能力和鲁棒性。

相关推荐 去reddit讨论