本研究分析了合成电子健康记录(EHR)在医疗中的应用,评估了大型语言模型(LLM)生成合成数据的能力与局限性。结果表明,LLM在处理小特征子集时表现良好,但随着数据维度增加,其保持现实分布和相关性的能力下降,限制了在不同医院的适用性。
本文综述了合成电子健康记录(EHR)数据生成方法的现状,并提供实践者建议。研究表明,GAN方法在数据真实性和实用性方面表现优异,而基于规则的方法在隐私保护上更具优势。此外,提供的Python工具包"SynthEHRella"有助于不同方法的评估与选择。
完成下面两步后,将自动完成登录并继续当前操作。