小红花·文摘

本研究提出了新基准Text2World，以解决大型语言模型在生成符号世界模型时的评估问题。经过强化学习训练的推理模型表现优于其他模型，但仍存在能力限制。研究探索了多种策略以提升模型的世界建模能力。