小红花·文摘

本研究分析了大型语言模型在状态动态建模中的不足，尤其是在内部状态跟踪任务中的表现。结果表明，当状态空间增大和转移稀疏时，模型的预测准确性显著下降，揭示了其在状态-动作推理方面的弱点。