本研究提出了一种新的训练范式Pre-DPO,旨在提高直接偏好优化(DPO)的数据利用效率。通过使用指导参考模型,Pre-DPO显著提升了DPO和简单偏好优化(SimPO)的性能,无需外部模型或额外数据。
本研究提出了一种新颖的贝叶斯成员推断攻击方法(BMIA),通过贝叶斯推断进行条件攻击,仅需一个参考模型,显著降低计算消耗,提高成员推断的准确性和效率。
本研究针对传统的直接偏好优化(DPO)算法在长度偏倚、内存效率和概率下降方面的限制,提出了一种新的长度控制边际偏好优化(LMPO)方法。LMPO通过引入统一的参考模型和平均对数概率优化策略,改善了训练和推理阶段之间的一致性,实验证明其在控制响应长度和减少概率降解方面优于现有技术。
本研究解决了偏好学习中高质量样本获取的困难。通过发现参考模型的概率空间能够自然识别高质量训练样本,提出了一种新的采样策略,显著提高了学习性能,同时减少了训练数据使用量,尤其在技术任务上表现优异。
本文研究了大规模语言模型对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析稳定性和鲁棒性,提出了一种新方法MPO(混合偏好优化),减轻了两种方法的缺点。实验在两个公开的对齐数据集上展示了MPO的有效性。
通过RLHF方法对大规模语言模型进行微调,使其更好地与用户偏好相匹配。提出了Diffusion-DPO方法,通过在人类比较数据上进行直接优化,使扩散模型与人类偏好相匹配。使用Diffusion-DPO对SDXL-1.0模型进行微调,提高了视觉吸引力和提示对齐。开发了一个使用AI反馈的变体,为扩展扩散模型对齐方法打开了大门。
本文介绍了一种名为SHOT的算法,可用于最小化目标模型和参考模型参数之间的距离。该算法适用于任何GBML基线,并已证明其优于对应基线的结果。
2023年7月,我国发布了首个工业互联网安全领域的国际标准ISO/IEC 24392:2023《网络安全工业互联网平台安全参考模型》,该标准通过三个视角构建了工业互联网平台安全参考模型,解决工业互联网应用和发展过程中的平台安全问题,指导企业和研究机构设计安全防御措施,增强工业互联网平台的安全性。
完成下面两步后,将自动完成登录并继续当前操作。