该研究提出了Embodied-R框架,旨在解决预训练模型在高层次空间推理中的不足。通过结合大规模视觉-语言模型与小规模语言模型,并利用强化学习的新奖励系统,Embodied-R在有限计算资源下实现了深度思考能力。经过5000个具身视频样本训练后,该框架在空间推理任务中表现出与先进多模态模型相当的能力。
完成下面两步后,将自动完成登录并继续当前操作。