TG-LMM:通过文本引导的大型多模态模型提高医学影像分割精度

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

本研究提出了一个名为SAT的模型,可在医疗场景中通过文本提示对任意物体进行分割。研究贡献包括整合多个知识源构建多模态医学知识树,使用大规模分割数据集进行训练,提出通用的分割模型,使用医学术语进行提示,并通过SAT-Nano模型对31个分割数据集进行评估。结果显示与36个专家nnUNets的性能相当。研究将公布代码和模型,并提供SAT-Ultra模型在更多数据集上进行训练。

🎯

关键要点

  • 本研究提出了一个名为SAT的模型,用于医疗场景中的物体分割。
  • 研究的主要贡献包括整合多个知识源构建多模态医学知识树。
  • 使用超过11,000个三维医学图像扫描的大规模分割数据集进行训练。
  • 提出了一种通用的分割模型,通过医学术语的文本提示进行分割。
  • 使用107M参数的SAT-Nano模型对31个分割数据集进行评估,性能与36个专家nnUNets相当。
  • 研究将公布所有用到的代码和模型,并计划推出SAT-Ultra模型。