该研究提出了PHYBench,一个评估大型语言模型在物理推理能力的新基准工具。通过设计500个基于现实物理场景的问题,研究发现现有模型在复杂物理推理方面明显不如人类专家,强调了改进模型的必要性。
本研究评估了因果表示学习(CRL)在简单真实世界系统中的应用,揭示了现有方法的缺陷,强调了理论与实践之间的差距,并指出常见假设对性能的重要性。研究提供了一种基准工具供后续研究检验。
完成下面两步后,将自动完成登录并继续当前操作。