该研究提出了一种新颖的自回归框架——生成空间变换器(GST),用于改善空间定位和视图预测任务的不足。通过联合优化相机姿态估计和新视图合成,模型显著提升了这两项任务的性能,强调了空间意识与视觉预测之间的内在关系。
完成下面两步后,将自动完成登录并继续当前操作。