TG-LMM:通过文本引导的大型多模态模型提高医学影像分割精度
原文中文,约600字,阅读约需2分钟。发表于: 。本研究针对现有医学影像分割方法在利用先验知识方面的不足,提出了一种新颖的文本引导大型多模态模型TG-LMM。该模型通过整合专家对器官空间位置的描述,结合预训练的图像和文本编码器,显著提高了分割精度,并在多个权威医学影像数据集上表现优异,超越了现有方法。
本研究提出了一个名为SAT的模型,可在医疗场景中通过文本提示对任意物体进行分割。研究贡献包括整合多个知识源构建多模态医学知识树,使用大规模分割数据集进行训练,提出通用的分割模型,使用医学术语进行提示,并通过SAT-Nano模型对31个分割数据集进行评估。结果显示与36个专家nnUNets的性能相当。研究将公布代码和模型,并提供SAT-Ultra模型在更多数据集上进行训练。