小红花·文摘

该论文介绍了一种新的对齐范式，通过优先规则解决大语言模型中的对齐问题。作者提出了PriorityDistill方法，通过从模拟中提取信号来确保规则的稳健整合和遵守。实验证明，该方法有效地最小化了错误对齐，并能够适应各种未见规则。