小红花·文摘

本研究提出了一种基于Adam的扩散策略优化（ADPO）算法，旨在提升扩散模型在强化学习中的优化速度和稳定性。实验结果表明，ADPO在机器人控制任务中表现优异，具有广泛的应用潜力。

BriefGPT - AI 论文速递 ·

本研究提出AdPO方法，旨在提高大规模视觉语言模型（LVLMs）在对抗攻击下的鲁棒性。通过将对抗训练重新定义为偏好优化，AdPO增强了模型生成正常输出的能力，实验结果表明其在多个任务中优于现有防御方法。

BriefGPT - AI 论文速递 ·