小红花·文摘

本研究旨在构建与人类价值观相一致的通用文本助手，通过评估发现适度干预的效益随模型大小增加而增长，不影响大模型性能。二分类和模仿学习具善意，排序偏好建模方法在对齐训练任务中表现更佳。最终研究通过“偏好模型预训练”阶段提高在人类喜好上微调的样本效率。