小红花·文摘

大型语言模型是否有英语口音？评估和改善多语言大型语言模型的自然性

Apple Machine Learning Research ·

本研究探讨了大型语言模型（LLMs）与人类价值观的一致性，指出现有对齐方法仅提供局部安全，仍存在有害知识。通过分析验证，模型在对抗性诱导下表现出脆弱性，攻击成功率可达100%。

揭示对齐的大型语言模型的内在伦理脆弱性

BriefGPT - AI 论文速递 ·

本研究探讨了人工通用智能（AGI）安全开发中，依赖共识的对齐方法无法识别新解决方案的问题。提出的功能性认识闭合模型揭示了认知、制度和社会过滤器如何影响对齐提案的理解，缺乏递归模型可能导致不可逆的失调风险，影响AGI的安全开发。

Epistemic Closure and the Irreversibility of Misalignment: Modeling Systemic Barriers to Alignment Innovation

BriefGPT - AI 论文速递 ·

本研究提出了 extsc{AlignX}数据集及两种对齐方法，解决了大型语言模型在用户偏好对齐中的单一标准化问题，实验结果显示准确率提高了17.06%。

From One Million Users to Each User: Expanding Personalized Preferences for User-Level Alignment

BriefGPT - AI 论文速递 ·

本书探讨大型语言模型的基本概念，分析预训练、生成模型、提示技术和对齐方法，旨在帮助自然语言处理领域的学生和从业者理解这一快速发展的领域。

大型语言模型的基础

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的对齐方法——逐步扩散策略优化（SDPO），有效解决了现有对齐方法在少步扩散模型中的泛化不足问题。实验结果表明，SDPO在奖励基础对齐方面优于以往方法，展现出强大的泛化能力。

Aligning Few-Step Diffusion Models with Dense Reward Difference Learning

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLM）的对齐方法，提出了URIAL、Aligner和LongAlign等新技术，显著提升了微调和长篇背景处理的性能。研究强调了对齐分析的重要性，并提出了经济高效的对齐替代方案PreTTY，推动多语言LLM的发展。此外，选择性调优关键层可提高微调效率。

L3Ms -- 拉格朗日大语言模型

BriefGPT - AI 论文速递 ·

本文介绍了一系列支持高达32,768个令牌的长上下文大型语言模型（LLMs），通过持续预训练和长文本数据集，这些模型在长上下文任务上相较于Llama 2有显著提升。研究分析了对齐方法和长上下文能力的增强技术，提出了LongAlign框架和GATEAU框架，显著提高了模型在长篇背景任务中的性能。

LOGO - 通过高效偏好优化实现长上下文对齐

BriefGPT - AI 论文速递 ·

本研究提出了GenARM，一种基于自回归奖励模型的高效对齐方法，旨在解决大型语言模型与人类偏好对齐的成本和效率问题。实验证明，GenARM在性能上显著优于传统方法，并支持多目标对齐，以满足用户的多样化需求。

GenARM: Reward-Guided Autoregressive Reward Model Generation for Test-Time Alignment

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）与人类偏好的对齐方法，包括点对点偏好学习、奖励模型优化和软偏好优化。研究表明，利用奇异值分解和联合指导-回应偏好数据等技术，可以显著提升模型的对齐效果，增强与人类偏好的匹配。

朝着大型语言模型偏好学习的统一视角：一项调查

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）与人类偏好的对齐方法，提出了基于贝叶斯推理的d-PM模型和主动选择提示的APO算法，以提高偏好数据的收集效率和质量。这些方法旨在克服传统强化学习的局限性，确保生成的响应更符合人类偏好，从而提升模型的安全性和实用性。

基于偏好引导的反射采样以调整语言模型

BriefGPT - AI 论文速递 ·

本文研究了大型语言模型中的遗忘机制，提出三种对齐方法以删除有害回应、版权内容和幻觉。通过引入轻量级的取消学习层，框架有效更新模型，解决用户隐私问题。研究表明，结合梯度上升与下降的方法能提升模型性能，推动道德AI实践的发展。

面向大型语言模型的鲁棒且成本高效的知识遗忘

BriefGPT - AI 论文速递 ·

本研究探讨了对齐方法在不同情境下的表现，发现小规模训练数据在数学问题解决中效果最佳。提出了长期记忆对话（LeMon）任务，并构建了具长期记忆机制的对话生成框架PLATO-LTM，显著提升了对话一致性。此外，研究了基于大型语言模型的对话状态跟踪和记忆管理，提出了逐步DPO方法，提升了模型性能。

基于 sLLM 的高效准确可记忆对话模型

BriefGPT - AI 论文速递 ·

本文研究了大型语言模型（LLM）的对齐方法，分析了对齐数据集和技术对模型性能的影响。研究表明，较小训练数据子集中的对齐方法在数学问题解决中效果最佳。提出了一种基于蒸馏的多模态对齐模型，增强了语言能力，并通过细粒度监督提升了模型性能。此外，提出了一种参数高效的对齐方法（MEET），显著提高了可控生成质量，强调了对人类偏好的对齐对模型安全性的重要性。

LIONs：一种经验优化的语言模型对齐方法

BriefGPT - AI 论文速递 ·

研究揭示大型语言模型在对抗性攻击中的脆弱性，质疑仅依赖复杂对齐方法的有效性。提出结合模态与非模态概念，以增强模型对现实和伦理的理解。探索多种对齐技术，发现改进响应风格能提高模型准确性，同时保持核心能力，避免过拟合。

语言模型抗拒对准

BriefGPT - AI 论文速递 ·

本文介绍了一种名为DPO（直接偏好优化）的算法，旨在提高大规模语言模型的可控性。DPO在稳定性和性能上优于传统强化学习方法。研究还探讨了奖励模型在分布偏移下的鲁棒性，并提出了新的对齐方法TR-DPO，以改善模型质量。此外，提出了基于策略的奖励学习框架，增强了奖励模型的泛化能力。

直接对齐算法中奖励模型过度优化的尺度规律

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）的对齐方法，包括外部和内部对齐技术，分析了可解释性、安全性和对抗攻击的潜在漏洞。强调了人类反馈在改进模型总结能力和可靠性方面的重要性。此外，介绍了多模态大型语言模型（MLLMs）在处理文本和视觉数据中的应用及其挑战，提出了模态对齐方法的必要性。

提升 LLMs 的可扩展自动对齐：调查

BriefGPT - AI 论文速递 ·

本文介绍了一种新的大型语言模型对齐方法——Aligner，通过有监督学习显著提升模型性能。在11种不同模型上，Aligner平均提高了18%的有用性和23%的无害性，特别是在Llama2-70B模型上表现尤为突出。此外，研究还探讨了其他对齐策略和模型训练方法，强调了对齐在确保语言模型安全性和实用性方面的重要性。

NeMo-Aligner：高效模型对齐的可扩展工具匠

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）的对齐方法，包括强化学习与人类反馈（RLHF）和直接偏好优化（DPO）。研究提出了一种新方法混合偏好优化（MPO），结合了两者的优点，采用两阶段训练过程，实验结果显示MPO在对齐任务中表现优异，提升了模型的稳定性和性能。

LLM 的偏好微调应利用次优的，符合策略的数据

BriefGPT - AI 论文速递 ·

本文研究了大规模语言模型对齐的主要方法，包括强化学习与人类反馈（RLHF）和直接偏好优化（DPO）。提出的新方法混合偏好优化（MPO）结合了两者的优点，实验验证了其有效性。DPO在无监督语言模型中表现更好且更稳定，RS-DPO方法在资源有限环境中提升了模型一致性。此外，研究还探讨了隐私保护对齐的效果。

了解您的参考模型以实现良好对齐

BriefGPT - AI 论文速递 ·