小红花·文摘

本文综述了针对动态环境模型的强化学习方法，讨论了其优缺点和未来改进方向。

如何选择强化学习算法

BriefGPT - AI 论文速递 ·

本文讨论生成对抗恶意软件样本的问题，特别关注恶意的Windows PE文件。通过比较不同方法生成的对抗样本，并与杀毒软件进行测试，结果显示优化的恶意软件可能被错误分类为良性。实验显示采用强化学习方法的Gym-malware生成器具有最大潜力，平均生成时间为5.73秒，最高逃避率为44.11%。与自身结合可提高逃避率至58.35%。

恶意软件检测中对抗性样本的零阶优化的新形式

BriefGPT - AI 论文速递 ·

该文章介绍了一种利用人类比较数据和强化学习方法对大规模语言模型进行微调的方法，通过Diffusion-DPO方法，可以使扩散模型更好地与人类偏好相匹配。研究结果表明，经过微调的模型在视觉吸引力和提示对齐方面显著优于基础模型。该方法为扩展扩散模型对齐方法提供了新的可能性。

RS-DPO：一种用于大型语言模型对齐的混合拒绝抽样和直接偏好优化方法

BriefGPT - AI 论文速递 ·