本研究探讨了癌症生存预测中病理报告文本数据的应用,提出了一种新颖的多模态生存模型训练方法。研究结果表明,病理报告文本的多模态融合显著提升了生存预测的效果。
基于BLIP-2框架,开发了一种视觉语言模型,将病理报告文本与切片图像配对,形成图像-文本嵌入空间。该模型在超过35万张去标识化数据上评估,78%的生成文本被病理医师认为准确,展示了语言与WSI嵌入结合的潜力。
该研究提出了CancerLLM模型,具有70亿个参数和Mistral风格的架构,预先训练了2,676,642份临床笔记和515,524份病理报告,涵盖了17种癌症类型。CancerLLM在三个与癌症相关的任务上进行了微调,相对于其他语言模型取得了最先进的结果,平均F1得分提高了8.1%。此外,CancerLLM在两个鲁棒性测试中表现优于其他模型,可应用于临床AI系统,增强了癌症领域的临床研究和医疗服务。
完成下面两步后,将自动完成登录并继续当前操作。