小红花·文摘 - 小红花技术领袖俱乐部

本研究提出Touchstone基准，旨在解决医学分割领域测试集规模小和指标简单的问题，从而更有效地评估AI算法在真实场景中的表现，推动医学AI的创新。

基准测试：我们在评估医学分割的AI算法上走对了吗?

BriefGPT - AI 论文速递 ·

我们提出了一种使用大视觉语言模型评估多模态对话质量的方法。通过构建综合的视觉对话数据集和图像注释，我们能够直接评估大视觉语言模型的能力，为其评估提供参考。

TouchStone: 通过语言模型评估视觉 - 语言模型

BriefGPT - AI 论文速递 ·