VividMed：具有多功能视觉定位的医学视觉语言模型

本研究针对现有视觉语言模型在医学应用中面临的挑战，如单一的视觉定位方法和对3D医学图像的处理不足，通过提出VividMed模型来填补这一空白。VividMed支持语义分割和实例级边界框生成，能够处理2D和3D医学图像，并在视觉问答和报告生成等多个任务中表现出色。实验结果表明，该模型的视觉定位能力显著提升了多种下游任务的性能。

医学视觉语言模型结合计算机视觉和自然语言处理，用于分析医学数据。文章回顾了医学报告生成和视觉问答模型的进展，探讨了数据集、模型架构、预训练策略及评估指标。强调了增强临床有效性和隐私问题等挑战，并总结了多模态数据在医疗应用中的进展。