小红花·文摘

本研究探讨大型语言模型（LLMs）的预测能力，发现其性能可通过RMSE进行准确预测。评估显示LLMs在小样本任务中表现优异，但受数据大小影响显著。引入新基准AQA-Bench评估顺序推理能力，结果表明闭源模型优于开源模型。此外，研究提出主动测试框架AcTracer，以提高评估效率和准确性。总体而言，LLMs在多问题处理能力上表现良好，但缺乏真正理解。

只需100个实例：通过测试少量实例预测新LLM在未见数据上的成功

BriefGPT - AI 论文速递 ·

本文介绍了一种新的主动测试框架，通过精心选择标记测试点，解决了模型评估与实际应用的脱节问题。该方法在大型带噪数据集上有效查询用户，降低了标注成本，提高了计算机视觉任务的评估稳健性。同时，结合大型语言模型的主动学习方法，显著提升了分类性能，并在多种任务中验证了其有效性。

通过多阶段抽样对大型语言模型进行主动测试

BriefGPT - AI 论文速递 ·