AE-GPT: 使用大型语言模型从监测报告中提取不良事件 - 以流感疫苗不良事件为案例
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本研究评估了多种大型语言模型在不良事件提取方面的能力,其中经过微调的GPT 3.5模型在严格匹配方面取得了0.704的平均微F1分数,松弛匹配方面为0.816。这表明LLMs在处理医疗数据方面具有潜力,并可能推广到其他AE提取任务。
🎯
关键要点
- 本研究评估了大型语言模型在不良事件提取方面的能力。
- 使用1990年至2016年的VAERS数据进行研究。
- 评估的模型包括GPT-2、GPT-3变体、GPT-4和Llama 2等。
- 经过微调的GPT 3.5模型在严格匹配方面取得了0.704的平均微F1分数。
- 在松弛匹配方面,GPT 3.5模型的分数为0.816。
- AE-GPT的表现显示了LLMs在处理医疗数据方面的潜力。
- 研究结果可能推广到其他不良事件提取任务。
➡️