本研究提出了Think-J方法,旨在提升生成式语言模型(LLMs)在评判生成响应方面的能力。该方法结合有限数据和强化学习,显著提高了评估能力,超越了现有评判方法,无需额外人类注释。
本研究提出VISCO基准,旨在解决大规模视觉语言模型在自我改进中的评判和纠正能力不足的问题。研究表明,人类评判显著提升模型性能,而自生成评判效果不佳,强调了改善评判能力的必要性。
完成下面两步后,将自动完成登录并继续当前操作。