AesBench：多模态大型语言模型在图像美学感知方面的专业基准

通过构建一个包含多样化图像内容和高质量专业审美专家注释的专家标记的美学感知数据库（EAPD）和一套综合性评判标准，我们提出了 AesBench 来全面评估多模态大规模语言模型（MLLMs）的美学感知能力，实验结果表明，目前的 MLLMs 只具有初步的美学感知能力，与人类之间仍然存在显著差距。希望此研究能激发学术界对 MLLMs 美学潜力的进一步探索。

视觉语言模型（MLLMs）的出现标志着人工智能应用程序的扩展，但评估其有效性面临挑战。为解决这个问题，引入了MLLM-Bench，一个创新基准，提供更全面的模型评估。对比评估结果显示，现有模型和GPT-4V之间存在显著性能差距。MLLM-Bench将推动开源社区在用户导向视觉语言模型方面取得进展。