本研究探讨了长期上下文语言模型(LCLM)的评估方法,发现分类和概括任务在提供额外示例时表现显著提高,而翻译和推理任务未显示明显趋势。研究设立了新基准MANYICLBENCH,以评估LCLMs的检索和全球上下文理解能力,结果显示许多先进模型在全球上下文任务中的性能显著下降。
完成下面两步后,将自动完成登录并继续当前操作。