本研究提出了新基准Text2World,以解决大型语言模型在生成符号世界模型时的评估问题。经过强化学习训练的推理模型表现优于其他模型,但仍存在能力限制。研究探索了多种策略以提升模型的世界建模能力。
完成下面两步后,将自动完成登录并继续当前操作。