本研究提出VISCO基准,旨在解决大规模视觉语言模型在自我改进中的评判和纠正能力不足的问题。研究表明,人类评判显著提升模型性能,而自生成评判效果不佳,强调了改善评判能力的必要性。
完成下面两步后,将自动完成登录并继续当前操作。