小红花·文摘

本研究提出了一种新的跨视图目标对齐框架ROCKET-2，旨在解决不同摄像头视角下为智能体指定目标的问题。通过引入跨视图一致性损失和目标可见性损失，该框架提升了智能体的空间推理能力。在Minecraft中训练后，推理效率提高了3至6倍，为人工智能与人类的更好交互奠定了基础。