小红花·文摘

本研究提出ZALM3零样本策略，解决多轮多模态医学对话中因图像质量差导致的视觉语言对齐问题。该方法通过利用先前的文本信息识别图像兴趣区域，显著提升了对齐效果，实验结果显示在不同临床科室中具有良好的有效性。