该文章介绍了一个长文本理解的基准测试,评估了六个大型语言模型在该测试上的表现,发现它们的性能落后于人类水平。作者还观察到在原始数据集和增强数据集上的性能下降,强调了缓解数据污染的方法的有效性。
这篇文章介绍了一个长文本理解的基准测试,包含三个场景和四个难度递增的任务。六个大型语言模型在测试中的性能落后于人类水平。原始数据集和增强数据集上的性能下降验证了缓解数据污染的方法的有效性。
完成下面两步后,将自动完成登录并继续当前操作。