DART是一种基于变换器的模型,结合自回归和扩散,克服了传统扩散模型的马尔可夫特性限制,能够更有效地进行图像建模。该模型在统一框架中同时处理文本和图像数据,展现出在生成任务中的竞争力,为扩散模型提供了高效替代方案。
本研究提出了一种新的类别掩码图像建模策略,旨在解决半监督语义分割中的知识建模问题。该方法独立重建不同类别的图像区域,显著提升了类别内的连接性,并在多个基准测试中表现优异,展示了其在增强半监督学习中的潜力。
本文探讨了连续潜变量在生成模型中的应用,提出了概率积分电路(PICs)与概率电路(PCs)的结合,显著提升了高维数据集的性能。PICs在密度估计中超越了传统模型,展示了其在图像建模和复杂数据推理中的潜力。
该论文介绍了贝叶斯流网络(BFNs)及其在生成模型中的应用,特别是在图像建模和语言建模方面的竞争力。同时,探讨了基于随机微分方程的扩散归一化流算法,提出了新颖的变分框架和改进的采样理论,强调了BFNs在非平稳数据生成中的潜力。
本文介绍了视觉Transformer和掩蔽的图像建模(MIM)的新趋势,提出了一种新的掩蔽策略,称为注意力引导掩蔽(AttMask),证明了它在密集的基于蒸馏的MIM以及分类记号的普通基于蒸馏的自监督学习上比随机掩蔽效果更好。
完成下面两步后,将自动完成登录并继续当前操作。