只需100个实例:通过测试少量实例预测新LLM在未见数据上的成功
原文中文,约500字,阅读约需2分钟。发表于: 。本研究解决了在新LLM上评估性能所需的大量任务实例评估问题。本文提出了一种新方法,通过测试少量参考实例并训练通用评估器,基于以前的LLM评估结果预测新LLM的性能。我们的实验证明,该方法在同一分布的实例上表现出与特定LLM评估器相当的效果,展现出显著的实用价值。
该研究介绍了AQA-Bench,一个评估大规模语言模型在算法环境中顺序推理能力的新基准。研究发现闭源模型表现较好,简单交互示例可能损害少样本性能,少样本性能可通过遵循最优策略的前继步骤数量提升,性能和模型大小之间的缩放相关性不总是显著。希望推动对LLM顺序推理能力的研究。