本研究提出Touchstone基准,旨在解决医学分割领域测试集规模小和指标简单的问题,从而更有效地评估AI算法在真实场景中的表现,推动医学AI的创新。
我们提出了一种使用大视觉语言模型评估多模态对话质量的方法。通过构建综合的视觉对话数据集和图像注释,我们能够直接评估大视觉语言模型的能力,为其评估提供参考。
完成下面两步后,将自动完成登录并继续当前操作。