本研究提出了一种语言指导偏好学习(LGPL)方法,旨在优化机器人在社会环境中的互动行为。该方法结合了预训练语言模型与偏好学习,仅需四个查询即可快速学习并准确执行行为,显著提高了样本效率。
完成下面两步后,将自动完成登录并继续当前操作。