本研究旨在构建与人类价值观相一致的通用文本助手,通过评估发现适度干预的效益随模型大小增加而增长,不影响大模型性能。二分类和模仿学习具善意,排序偏好建模方法在对齐训练任务中表现更佳。最终研究通过“偏好模型预训练”阶段提高在人类喜好上微调的样本效率。
完成下面两步后,将自动完成登录并继续当前操作。