本研究提出ZALM3零样本策略,解决多轮多模态医学对话中因图像质量差导致的视觉语言对齐问题。该方法通过利用先前的文本信息识别图像兴趣区域,显著提升了对齐效果,实验结果显示在不同临床科室中具有良好的有效性。
完成下面两步后,将自动完成登录并继续当前操作。