本文介绍了一种结合对抗性模仿学习和强化学习的系统,用于训练物理模拟角色在复杂场景中的交互。该系统无需手动注释数据,能够处理未见物体和场景。研究提出了I-PHYRE框架,强调代理人的物理推理能力,并介绍了COINS生成模型,实现自然的人-场景互动。此外,构建了PHASE数据集和Physion++基准,以评估多智能体的社会互动和视觉物理预测能力。
完成下面两步后,将自动完成登录并继续当前操作。