当偏好发生分歧:对少数群体意识的自适应DPO进行对齐

📝

内容提要

本文探讨了偏好数据在扩散模型训练过程中的关键作用,特别是在Diffusion-DPO及其后续适应中,针对少数样本对模型表现的负面影响,提出了一种新颖的自适应DPO方法。该方法通过引入一种少数样本意识的指标,优化了DPO损失函数,既提高了模型对多数标签的学习能力,又减轻了少数样本的负面影响,为图像生成任务的发展提供了新的训练思路。

➡️

继续阅读