小红花·文摘

理解和预防不对齐泛化

OpenAI ·

本研究提出WikiPersona数据集，通过描述名人的背景和偏好实现模型个性化对齐。研究表明，使用个人偏好前缀能有效提升模型个性化效果，并在未见个体中实现更公平的泛化。

WikiPersonas: What Can We Learn from Personalization Alignment with Celebrities?

BriefGPT - AI 论文速递 ·

本研究探讨了直接偏好优化（DPO）在大型语言模型对齐中的应用，发现多模型生成的合成偏好数据虽然能提升性能，但也增加了安全风险。相比之下，仅使用自生成响应的模型在对齐安全性上表现更佳。

More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment

BriefGPT - AI 论文速递 ·

本研究提出了一种基于21个偏好类别的标准，能够捕捉超过89%的个体偏好变化，强调其在模型评估和训练中的实用性，并提供了对模型对齐的深入见解。

A Standard Framework for Learning Human Preferences from Binary Ratings

BriefGPT - AI 论文速递 ·

本研究提出了一种生成心理-词汇方法（GPLA），旨在为大型语言模型（LLMs）构建基于心理学的五因素价值体系，以更有效地捕捉LLMs的价值，提升安全预测和模型对齐能力。

Generative Psycho-Lexical Approach for Constructing Value Systems in Large Language Models

BriefGPT - AI 论文速递 ·

本文介绍了大型语言模型的研究与优化，重点讨论了OpenAssistant的发布及其相较于ChatGPT的优势。同时探讨了GAOKAO-Benchmark基准测试、GEAR查询工具、模型对齐方法及评估，提出了优化技术和资源需求的解决方案，为未来研究提供了重要见解。

使用电路断路器缩小语言模型的范围

BriefGPT - AI 论文速递 ·

本文介绍了Fine-Grained RLHF框架，旨在改善语言模型生成虚假和无关输出的问题。研究提出了提高奖励模型一致性的技术，并探讨了解决激励解匹配的方法。通过强化学习优化，发现回应长度与模型性能相关，提出了新的奖励建模方法，显著提升了自然语言处理任务的效果。同时，研究揭示了RLHF可能加剧模型误导能力的问题，呼吁进一步研究以改善模型对齐。

RLHF中的准确性悖论：更好的奖励模型并不总能产生更好的语言模型

BriefGPT - AI 论文速递 ·

本文介绍了多种优化方法以提高大型语言模型（LLMs）对用户偏好的理解和对齐能力，包括相对偏好优化（RPO）、二进制分类器优化、软偏好优化（SPO）和多参考模型偏好优化（MRPO）。这些方法通过动态调整模型输出和利用参考模型的知识，显著提升了模型在用户偏好和自然语言处理任务中的表现。

稀疏PO：通过稀疏令牌掩码控制大型语言模型的偏好对齐

BriefGPT - AI 论文速递 ·

本文提出了DPO（直接偏好优化）算法，解决了无监督语言模型的可控性问题，优于传统的RLHF方法。同时，研究引入了MinorDPO和TSO框架，增强了模型与人类偏好的对齐能力，提高了训练的稳定性和鲁棒性。通过自我对弈和主动学习策略，优化了偏好数据的学习效率。

自监督偏好优化：提升语言模型的偏好程度意识

BriefGPT - AI 论文速递 ·

直接偏好优化（DPO）是一种有效的调优策略，用于将大型语言模型与人类偏好对齐。本文提出了带有偏移量的DPO（ODPO）方法，显著提高了对齐效果，尤其在偏好数量有限时。研究还探讨了冗长性问题，并提出了Mallows-DPO和MinorDPO等改进方法，以增强模型的稳定性和鲁棒性。

定向偏好优化中的长度去敏感化

BriefGPT - AI 论文速递 ·

本文提出了一种名为“rDPO”的方法，通过自我批评生成合成数据，并利用DPO损失函数优化大型语言模型（LLM）。研究表明，rDPO在模型对齐方面优于传统DPO，尤其在偏好数量有限的情况下。此外，提出了逐步DPO（sDPO）和三重偏好优化（TPO）方法，以提高模型性能并减少训练数据噪声的影响。

桥接和建模成对数据中的相关性以实现直接偏好优化

BriefGPT - AI 论文速递 ·

本研究探讨了部署大型语言模型（LLMs）所面临的风险，并评估了防护和模型对齐技术的方法。提出了保护LLMs的技术策略，包括分层保护模型、RAG架构和保护隐私的技术。需要平衡精确性和隐私等竞争需求。强调了持续研究和开发的重要性。

巩固模型系统中运行时防护栏的分类

BriefGPT - AI 论文速递 ·

开放权重 LLM 的防篡改保护措施

BriefGPT - AI 论文速递 ·

本研究评估了部署LLMs的风险，并探讨了防护和模型对齐技术的方法。研究提出了保护LLMs的技术策略，包括分层保护模型、RAG架构和保护隐私的技术。研究强调了持续研究和开发的重要性，以确保LLMs在实际应用中的安全和负责任使用。

PrimeGuard：通过无需调整的路由实现安全且有用的 LLMs

BriefGPT - AI 论文速递 ·

本研究探讨了部署大型语言模型（LLMs）的风险，并评估了防护和模型对齐技术的方法。提出了保护LLMs的技术策略，包括分层保护模型、RAG架构和保护隐私的技术。需要平衡精确性和隐私等竞争需求。强调持续研究和开发的重要性。

$R^2$-Guard: 通过知识增强的逻辑推理实现强化的 LLM 防护栏

BriefGPT - AI 论文速递 ·

在敏感环境中部署LLMs时，确保输出结果安全和隐私保护至关重要。研究发现，通过在模型输入末尾添加一个空格，可以破坏模型的防御机制，导致大多数模型生成有害输出。这突显了当前模型对齐的脆弱状态，强调了开发更强大的对齐方法的重要性。

单字扰动破坏 LLM 对齐

BriefGPT - AI 论文速递 ·

研究提出了一种新的推理方法RAIN，通过自评和倒带机制提高未对齐的LLMs的生成回答的准确性和安全性，无需额外数据进行模型对齐，实验证明其有效性。

故障为途：通过无需调整规则的积累增强大型语言模型

BriefGPT - AI 论文速递 ·

本研究提出了一种新的推理方法RAIN，通过整合自评和倒带机制，可以直接生成与人类偏好一致的回答，无需额外数据进行模型对齐。实验证明RAIN有效，改善了LLaMA 30B模型的无害率，同时在对抗性攻击下降低了攻击成功率。

RAIN: 语言模型可以自动对齐，无需微调

BriefGPT - AI 论文速递 ·