DART是一种基于变换器的模型,结合自回归和扩散,克服了传统扩散模型的马尔可夫特性限制,能够更有效地进行图像建模。该模型在统一框架中同时处理文本和图像数据,展现出在生成任务中的竞争力,为扩散模型提供了高效替代方案。
本研究提出了一种新的类别掩码图像建模策略,旨在解决半监督语义分割中的知识建模问题。该方法独立重建不同类别的图像区域,显著提升了类别内的连接性,并在多个基准测试中表现优异,展示了其在增强半监督学习中的潜力。
本研究探讨了过参数化张量分解中的隐式正则化,提出一种新方法,证明小随机初始化下的梯度下降能引导模型趋向低管状秩解,从而提升图像数据建模性能。
本研究提出了离散去噪后验预测(DDPP)框架,解决生成离散数据的引导问题。通过学习目标贝叶斯后验分布的采样,提供了一种无模拟的可扩展解决方案。实验表明,该方法在图像建模、文本奖励对齐和生成多样化蛋白质序列方面表现出色。
本文介绍了视觉Transformer和掩蔽的图像建模(MIM)的新趋势,提出了一种新的掩蔽策略,称为注意力引导掩蔽(AttMask),证明了它在密集的基于蒸馏的MIM以及分类记号的普通基于蒸馏的自监督学习上比随机掩蔽效果更好。
完成下面两步后,将自动完成登录并继续当前操作。