K-Sort Arena:基于K次人类偏好的生成模型高效可靠基准评估
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了传统评估方法在生成模型排名中面临的效率和可靠性问题。提出的K-Sort Arena平台通过K次比较,允许多个模型参与竞争,从而快速评估多样本,显著提升了排名的收敛速度。实验表明,该平台的收敛速度比广泛使用的ELO算法快16.3倍,对生成模型评估具有潜在重大影响。
本文研究了GenAI-Bench上的图像和视频生成模型的性能,发现VQAScore评分优于人类评分,并可通过简单排名提高生成速度。在复合提示下,VQAScore的排名效果比其他评分方法提高2倍至3倍。