本文介绍了多个长上下文基准测试的研究,如Loong、LongBench和XL2Bench,评估大型语言模型在长上下文理解中的表现。研究发现,商业模型在短任务上优于开源模型,但在长依赖任务中仍面临挑战。新基准的引入揭示了现有模型在处理长上下文时的不足,并提出了改进方法。
完成下面两步后,将自动完成登录并继续当前操作。