小红花·文摘

本研究提出了一种平衡DPO方法，旨在解决文本到图像扩散模型在对齐多样化偏好方面的挑战。该方法通过对齐人类偏好、CLIP评分和美学质量等指标，显著提升了主要指标的表现，平均胜率分别提高了15%、7.1%和10.3%。

BriefGPT - AI 论文速递 ·

本文研究了多方强化学习与人类反馈的方法，探讨了多个个体的多样化偏好，并提出了引入元学习和不同的社会福利函数来聚合多方偏好的方式。研究结果表明，多方强化学习与传统单方强化学习在样本复杂度上存在差异，并凸显了多方强化学习的统计复杂性要求。

BriefGPT - AI 论文速递 ·