Kinetix：通过开放式物理控制任务调查通用智能体的训练

本研究针对在序列决策问题中实现智能体的通用化能力这一挑战，提出了一种新方法。通过程序生成数千万个基于物理的2D任务，并利用硬件加速的物理引擎Jax2D进行训练，提出了Kinetix框架，展现出训练的智能体具有强大的物理推理能力，能在未见的环境中零-shot解决问题，且在特定任务上的微调性能明显优于原始强化学习训练。该研究为在线强化学习的大规模预训练奠定了可行性基础。

本研究提出Kinetix框架，通过生成数千万个2D任务并利用Jax2D进行训练，展示了智能体在未见环境中的强大物理推理能力，且在特定任务微调上优于传统强化学习，为在线强化学习的预训练奠定基础。

2D任务 Kinetix框架强化学习智能体物理推理预训练