LongBoX:评估基于 Transformer 的长序列临床任务
原文中文,约500字,阅读约需2分钟。发表于: 。评估长序列处理能力的医学大型语言模型和模型性能,引入长序列数据集 LongBoX,初步实验证明医学和一般领域大型语言模型对长序列的处理存在困难,通过两种长序列处理技术(局部 - 全局注意力、Fusion-in-Decoder)的评估,得出虽然在某些数据集上分数有所提高,但仍有较大改进空间,并希望 LongBoX 有助于开发更有效的长序列技术。
研究评估了大型语言模型(LLMs)在生物医学任务中的性能,发现LLMs在较小训练集的生物医学数据集中表现出色,甚至超过了当前最先进的生物医学模型。然而,不同的LLMs在不同任务中表现不同。尽管与精细调整的生物医学模型相比,LLMs的性能仍有待提高,但它们在缺乏大规模注释数据的生物医学任务中具有潜在的价值。