小红花·文摘

本研究探讨了长期上下文语言模型（LCLM）的评估方法，发现分类和概括任务在提供额外示例时表现显著提高，而翻译和推理任务未显示明显趋势。研究设立了新基准MANYICLBENCH，以评估LCLMs的检索和全球上下文理解能力，结果显示许多先进模型在全球上下文任务中的性能显著下降。