小红花·文摘

本文介绍了一种新的多模态学习方法Uni-Modal Teacher，旨在解决机器人操作中的模态失败问题。通过结合图像和语言指令，提出了Instruct2Act框架，利用大型语言模型生成Python代码，从而提升机器人操作的效率和泛化能力。此外，RoboCodeX框架通过分解人类指令，增强了机器人对多种任务的适应性。研究还探讨了无监督视觉-语言-行为映射的潜力，并提出了改进模型性能的方法。