多尺度融合用于物体表征
原文中文,约500字,阅读约需2分钟。发表于: 。本研究针对现有物体中心学习(OCL)中,没有充分考虑物体在像素大小上存在差异的问题,提出了一种新的多尺度融合(MSF)方法来增强变分自编码器(VAE)的指导。该方法利用图像金字塔生成多尺度中间表征,并通过跨尺度和同尺度的融合,显著提升了OCL的训练效果,超越了传统和最先进的扩散模型。
研究发现,基于对象的表示可以提高学习动力学的准确性和可解释性。通过引入“块”的概念,模型在无监督下发现对象块,并利用Transformer和自注意力机制预测状态变化。实验表明,该方法能识别语义块,提高预测准确性,并在新属性组合中表现出色,强调了解缠表示的重要性。