小红花·文摘 - 小红花技术领袖俱乐部

PAL框架将人类偏好多样性融入预训练策略，通过学习奖励函数提高建模效率。实验证明PAL能达到竞争性奖励模型准确性，并呼吁采用更细致的数据收集方法。

PAL：异构偏好学习的多元对齐框架

BriefGPT - AI 论文速递 ·