M4LE: 一个适用于大型语言模型的多能力多范围多任务多领域长上下文评估基准
原文中文,约500字,阅读约需2分钟。发表于: 。我们提出了一个针对大型语言模型的多能力、多范围、多任务、多领域的长上下文评估基准(M4LE),并通过在 36 个 NLP 数据集、11 种任务类型和 12 个领域中用多样的 NLP 任务池来支持它。我们的研究揭示了当前的大型语言模型在理解长上下文方面的困难,尤其是在需要多个跨度注意力的任务上。我们的工作对于未来在这个具有挑战性的领域的研究具有有价值的参考价值。
本文评估了四种大型语言模型在六个生物医学任务中的表现,结果显示,零次矫正的LLMs在小规模生物医学数据集中表现优异,甚至超过了当前最先进的生物医学模型。LLMs在缺乏大规模注释数据的生物医学任务中具有潜在价值。