本研究提出DiffExp策略,解决文本到图像扩散模型在奖励微调中因在线样本生成导致的慢收敛问题。通过动态调整引导规模和随机加权文本提示,显著提升样本生成效率和多样性,从而提高模型性能。
完成下面两步后,将自动完成登录并继续当前操作。