小红花·文摘

该研究介绍了AQA-Bench，一个评估大规模语言模型在算法环境中顺序推理能力的新基准。研究发现闭源模型表现较好，简单交互示例可能损害少样本性能，少样本性能可通过遵循最优策略的前继步骤数量提升，性能和模型大小之间的缩放相关性不总是显著。希望推动对LLM顺序推理能力的研究。