该研究介绍了AQA-Bench,一个评估大规模语言模型在算法环境中顺序推理能力的新基准。研究发现闭源模型表现较好,简单交互示例可能损害少样本性能,少样本性能可通过遵循最优策略的前继步骤数量提升,性能和模型大小之间的缩放相关性不总是显著。希望推动对LLM顺序推理能力的研究。
完成下面两步后,将自动完成登录并继续当前操作。