本研究通过ZALM3零样本策略解决多轮多模态医学对话中因图像质量差导致的视觉语言对齐问题。该方法利用文本对话信息识别图像兴趣区域,显著提升对齐效果,并在不同临床科室中表现出有效性和潜在影响。
完成下面两步后,将自动完成登录并继续当前操作。