临床命名实体识别基准
原文中文,约500字,阅读约需1分钟。发表于: 。本文提出了一个用于评估医疗领域语言模型的临床命名实体识别基准,解决了从临床叙事中提取结构化信息这一重要自然语言处理任务的空白。该基准通过提供一个标准化的平台来评估各种语言模型(如编码器和解码器架构),并使用经OMOP共同数据模型标准化的开放临床数据集,以实现各医疗领域的临床实体识别及分类。研究的主要成果是制定了模型性能的全面评估框架,促进了临床实体识别任务的透明度和创新。
LLMs在处理医疗数据方面有潜力,但现有基准测试不足以评估其处理复杂临床数据的能力。通过LongHealth基准测试,评估了九个开源LLMs和GPT-3.5 Turbo。Mixtral-8x7B-Instruct-v0.1在信息检索任务中表现最佳,但所有模型在识别缺失信息时表现不佳,显示需要改进。当前LLMs的准确性不足以用于可靠的临床应用,需改进以实现安全有效的应用。