SALMON是一种新方法,使用少量人定的原则和基于合成偏好数据训练的奖励模型,实现了对基础语言模型的自动对齐,提高了监督效率、可控性和可扩展性。在各种基准数据集上显著超越了几种最先进的人工智能系统,包括LLaMA-2-Chat-70b。
该研究提出了一种名为SALMON的新方法,使用少量人定的原则和基于合成偏好数据训练的奖励模型,实现了对基础语言模型的自动对齐,提高了监督效率、可控性和可扩展性。在各种基准数据集上显著超越了几种最先进的人工智能系统,包括LLaMA-2-Chat-70b。
完成下面两步后,将自动完成登录并继续当前操作。