多尺度融合用于物体表征

本研究针对现有物体中心学习（OCL）中，没有充分考虑物体在像素大小上存在差异的问题，提出了一种新的多尺度融合（MSF）方法来增强变分自编码器（VAE）的指导。该方法利用图像金字塔生成多尺度中间表征，并通过跨尺度和同尺度的融合，显著提升了OCL的训练效果，超越了传统和最先进的扩散模型。

研究发现，基于对象的表示可以提高学习动力学的准确性和可解释性。通过引入“块”的概念，模型在无监督下发现对象块，并利用Transformer和自注意力机制预测状态变化。实验表明，该方法能识别语义块，提高预测准确性，并在新属性组合中表现出色，强调了解缠表示的重要性。

Transformer 学习动力学对象表示自注意力解缠表示