小红花·文摘

本研究提出DiffExp策略，解决文本到图像扩散模型在奖励微调中因在线样本生成导致的慢收敛问题。通过动态调整引导规模和随机加权文本提示，显著提升样本生成效率和多样性，从而提高模型性能。