小红花·文摘

该论文探讨了复杂低级控制任务的泛化策略学习，提出了一种结合层次强化学习与模仿学习的新方法，以提升低级操纵任务的性能。同时，介绍了 Visual CoT 数据集，展示了多模态大型语言模型在视觉推理中的有效性，并提出了 DDCoT 提示和 ERA-CoT 方法，显著提高了推理能力和准确性。