俄语分析的长文输入基准
原文中文,约500字,阅读约需2分钟。发表于: 。近期自然语言处理领域的进展推动了大型语言模型的发展,这些模型可以解决各种任务。其中一个关键方面是它们能够处理长文本文档和长序列的标记。为了满足对俄语长文本理解的需求,我们提出了 LIBRA(长输入俄语分析基准测试集),其中包含了 21 个自适应数据集,用于研究大型语言模型深度理解长文本的能力。这些测试被分为四个复杂度组,并允许评估模型在 4k 至 128k...
LLMs在处理医疗保健领域的患者记录方面具有潜在优势,但现有基准测试不能充分评估LLMs在处理真实世界中的冗长临床数据方面的能力。通过提供包含20个详细虚构病例的LongHealth基准测试,评估了9个开源LLMs和OpenAI的GPT-3.5 Turbo。结果显示,Mixtral-8x7B-Instruct-v0.1在检索信息任务上表现最好,但所有模型在识别缺失信息的任务中遇到困难,强调了临床数据解释中需要改进的关键领域。当前LLMs的准确性水平对于可靠的临床使用是不足的,需要进一步改进模型以实现安全有效的临床应用。提供了基准测试和评估代码。