该论文探讨了复杂低级控制任务的泛化策略学习,提出了一种结合层次强化学习与模仿学习的新方法,以提升低级操纵任务的性能。同时,介绍了 Visual CoT 数据集,展示了多模态大型语言模型在视觉推理中的有效性,并提出了 DDCoT 提示和 ERA-CoT 方法,显著提高了推理能力和准确性。
完成下面两步后,将自动完成登录并继续当前操作。