Synth-SBDH:临床文本中的社会行为和健康决定因素的合成数据集

💡 原文中文,约2200字,阅读约需6分钟。
📝

内容提要

本研究利用大型语言模型从电子健康记录中提取社会健康决定因素(SDoH),并评估合成临床文本的改进效果。最佳模型为微调的Flan-T5 XL,识别不良SDoH患者的准确率高达93.8%。研究还提出了新的标注语料库PedSHAC,展示了基于LLM的提取器在SDoH提取中的潜力。

🎯

关键要点

  • 本研究使用大型语言模型从电子健康记录中提取社会健康决定因素(SDoH)。

  • 最佳模型为微调的Flan-T5 XL,识别不良SDoH患者的准确率高达93.8%。

  • 研究提出了新的标注语料库PedSHAC,展示了基于LLM的提取器在SDoH提取中的潜力。

  • PedSHAC涵盖了十个不同的健康决定因素,整体标注一致性为81.9 F1。

  • 研究表明,使用大型语言模型可以有效增强关于SDoH的现实世界证据,帮助识别需要社会支持的患者。

延伸问答

什么是社会健康决定因素(SDoH)?

社会健康决定因素(SDoH)是影响个体健康结果的社会和经济条件,包括生活和经济稳定性、教育机会等。

Flan-T5 XL模型在识别不良SDoH患者方面的表现如何?

Flan-T5 XL模型在识别不良SDoH患者的准确率高达93.8%。

PedSHAC数据集的主要内容是什么?

PedSHAC数据集包含从儿科患者的临床记录中提取的社会历史部分,涵盖十个不同的健康决定因素。

大型语言模型如何改善SDoH的提取?

大型语言模型通过提高提取准确性和减少算法偏见,能够有效增强关于SDoH的现实世界证据。

研究中提到的标注一致性是多少?

研究中提到的整体标注一致性为81.9 F1。

使用大型语言模型提取SDoH的潜在好处是什么?

使用大型语言模型提取SDoH可以帮助识别需要社会支持的患者,从而改善健康干预措施。

🏷️

标签

➡️

继续阅读