EvalPlanner是一个新框架,旨在更准确地评估语言模型的输出。它利用大型语言模型作为自动评审者,结合规划和推理,通过合成数据训练提升评估能力,并在多个基准测试中表现优异。
完成下面两步后,将自动完成登录并继续当前操作。