AlignDiff: 通过可定制行为的扩散模型对齐多样人类偏好

使用强化学习和人类反馈来量化和引导抽象的人类偏好，提出了一种新的框架 AlignDiff。通过建立多角度的人类反馈数据集并训练属性强度模型，将人类偏好与行为定制相匹配，并在推理阶段使用属性强度模型作为指导器来对齐偏好。在各种任务中评估 AlignDiff 并展示了相对于其他基准的卓越性能，表明了人工智能与人类的协作潜力。

该文介绍了一种利用偏好建模和强化学习方法优化语言模型的技术，能够提高自然语言处理的评估表现。通过迭代在线模式的训练，每周使用新的人类反馈数据更新偏好模型和强化学习策略，有效改进了数据集和模型。同时，研究了强化学习从人类反馈中学习的鲁棒性和重要性，并提供了使用最新相关工作中出现的提示的模型样本。

偏好建模强化学习扩散模型数据集模型样本自然语言处理