小红花·文摘

SALMON是一种新方法，使用少量人定的原则和基于合成偏好数据训练的奖励模型，实现了对基础语言模型的自动对齐，提高了监督效率、可控性和可扩展性。在各种基准数据集上显著超越了几种最先进的人工智能系统，包括LLaMA-2-Chat-70b。

BriefGPT - AI 论文速递 ·

该研究提出了一种名为SALMON的新方法，使用少量人定的原则和基于合成偏好数据训练的奖励模型，实现了对基础语言模型的自动对齐，提高了监督效率、可控性和可扩展性。在各种基准数据集上显著超越了几种最先进的人工智能系统，包括LLaMA-2-Chat-70b。

BriefGPT - AI 论文速递 ·