小红花·文摘

本文介绍了一种结合视觉和语言模型的机器人操纵方法，通过分析人类动作视频生成可执行程序。研究表明，该方法在机器人操作中表现出显著的准确性和成功率，提升了机器人在复杂任务中的表现，展示了大型语言模型在机器人领域的潜力。