AE-GPT: 使用大型语言模型从监测报告中提取不良事件 - 以流感疫苗不良事件为案例

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究评估了多种大型语言模型在不良事件提取方面的能力,其中经过微调的GPT 3.5模型在严格匹配方面取得了0.704的平均微F1分数,松弛匹配方面为0.816。这表明LLMs在处理医疗数据方面具有潜力,并可能推广到其他AE提取任务。

🎯

关键要点

  • 本研究评估了大型语言模型在不良事件提取方面的能力。
  • 使用1990年至2016年的VAERS数据进行研究。
  • 评估的模型包括GPT-2、GPT-3变体、GPT-4和Llama 2等。
  • 经过微调的GPT 3.5模型在严格匹配方面取得了0.704的平均微F1分数。
  • 在松弛匹配方面,GPT 3.5模型的分数为0.816。
  • AE-GPT的表现显示了LLMs在处理医疗数据方面的潜力。
  • 研究结果可能推广到其他不良事件提取任务。
➡️

继续阅读