小红花·文摘

本研究提出了Think-J方法，旨在提升生成式语言模型（LLMs）在评判生成响应方面的能力。该方法结合有限数据和强化学习，显著提高了评估能力，超越了现有评判方法，无需额外人类注释。