MixEHR-Nest：通过分层引导主题建模识别电子健康记录中的亚表型

本研究解决了现有算法在电子健康记录（EHR）中难以有效识别细化亚表型的问题，提出了一个新颖的引导主题模型MixEHR-Nest。该模型能够从多模态EHR数据中推断出具有不同模式的亚表型，显著提高了对疾病进展和严重性的预测准确性。

研究利用大型语言模型从电子健康记录中提取社会健康决定因素（SDoH），并探讨合成临床文本的改进作用。微调的Flan-T5 XL和XXL模型表现最佳，优于ChatGPT系列，显示出较少的算法偏见。模型识别出93.8%存在不良SDoH的患者，而ICD-10代码仅覆盖2.0%。该方法有效提取SDoH信息，帮助识别需社会支持的患者。

Flan-T5 大型语言模型建模电子健康记录社会健康决定因素算法偏见