本研究通过引入 AlignMMBench,一个专门为新兴的中文视觉 - 语言模型设计的综合对齐基准,从真实场景和中国互联网来源精心策划,并包括三个类别中的十三个具体任务,以及单轮和多轮对话场景。通过结合一个提示重写策略,AlignMMBench 包括 1054 个图像和 4978 个问答对。为了促进评估流程,我们提出了 CritiqueVLM,一个超越 GPT-4...
完成下面两步后,将自动完成登录并继续当前操作。