大型语言模型与监督建模在乳腺癌病理分类中零样本推理的比较研究
原文中文,约400字,阅读约需1分钟。发表于: 。通过对 769 份乳腺癌病理报告进行人工标注的数据集的研究,我们比较了 GPT-4 模型和 GPT-3.5 模型的零样本分类能力与三种模型架构的监督分类性能,发现 GPT-4 模型在所有 13 个任务中要么显著优于要么与最佳监督模型的 LSTM-Att 模型相当(平均宏 F1 得分为 0.83 vs. 0.75)。研究还表明,如果难以使用大规模标注数据集,LLMs...
通过研究769份乳腺癌病理报告,比较了GPT-4和GPT-3.5模型的分类能力,发现GPT-4在13个任务中要么优于要么与最佳监督模型相当。研究还发现,LLMs可以减轻数据标注负担,但使用带有大规模标注数据集的监督模型也可以提供可比较的结果。LLMs可以加快临床自然语言处理研究的执行速度,提高NLP在临床观察研究中的利用率。