小红花·文摘

面向数据中心的RLHF：偏好数据集比较的简单指标

Apple Machine Learning Research ·

本研究提出了一种新的对齐语言模型训练框架，利用奖励建模和高质量演示，避免依赖已对齐的LLMs。ALMoST模型在A/B测试中表现优异，Aligner方法通过高效微调提升了模型性能。DeAL框架和多目标解码算法进一步改善了模型的对齐能力，提供灵活的用户解决方案。

集成价值引导下的推理时语言模型对齐

BriefGPT - AI 论文速递 ·

本文探讨了对齐语言模型的攻击方法，包括局部微调和对抗性后缀嵌入翻译框架（ASETF），提高了攻击成功率和传递性。提出的新算法“Probe sampling”加速了安全研究，并揭示了令牌划分对模型性能的影响，提出了增强防御能力的框架。此外，介绍了高效黑箱越狱方法ECLIPSE，显著提高了攻击成功率和效率。

在对齐的大型语言模型上推进对抗性后缀迁移学习

BriefGPT - AI 论文速递 ·

一文看尽LLM对齐技术：RLHF、RLAIF、PPO、DPO……

机器之心 ·