有限数据,无限潜力:ViT 与遮蔽自编码器增强的研究
原文中文,约300字,阅读约需1分钟。发表于: 。Vision Transformers (ViTs) 使用自我监督学习 (SSAT) 作为辅助任务与主任务同时进行联合优化,以在有限的数据量下取得更好的性能表现,此方法能帮助 ViTs 充分利用自我监督任务和主任务的独特特点,展现出优于传统的 ViTs 预训练与后续微调的效果,并在 10 个数据集的实验证明了 SSAT 的显著性提升并减少了碳足迹,同时在视频领域的 Deepfake...
本文介绍了一种名为Vision Transformers (ViTs)的模型,使用自我监督学习(SSAT)作为辅助任务与主任务同时进行联合优化,以在有限的数据量下取得更好的性能表现。实验证明了SSAT的显著性提升并减少了碳足迹,同时在视频领域的Deepfake检测上也验证了其普遍适用性。