小红花·文摘

个性化群体相对策略优化用于异质偏好对齐

Apple Machine Learning Research ·

本研究提出了Persona-judge范式，解决个性化对齐语言模型的计算成本和适应性问题。该方法在未见偏好的情况下实现无训练的个性化对齐，实验表明其是一种可扩展且高效的解决方案，推动了定制对齐的发展。

Persona-judge: Personalized Alignment of Large Language Models via Token-level Self-judgment

BriefGPT - AI 论文速递 ·

蚂蚁与人大团队推出AlignXpert个性化对齐大模型，能精准识别用户偏好，并开源130万用户画像数据集。该模型通过上下文对齐和偏好桥接对齐两种方法，提升用户偏好预测准确率17.06%。研究强调个性化对齐的重要性，旨在解决大模型对少数群体声音的忽视问题。

首个个性化对齐大模型问世！可精准识别用户内在动机和偏好，还有百万用户画像开源数据集 | 蚂蚁&人大

量子位 ·

本研究评估了大型语言模型在个性化对齐方面的能力，特别是在处理用户提供的安全关键上下文时。分析表明，即使是最优秀的模型在理解用户需求时也存在系统性不一致，强调了需要更细致的对齐方法以促进安全的人工智能助手发展。

CURATe: Benchmarking Personalised Alignment of Conversational AI Assistants

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLM）个性化对齐的挑战与风险，提出了三层政策框架以确保符合人类偏好。研究表明，通过个性化参数调整和用户特定嵌入模型，LLM在用户偏好对齐方面表现优异，显著提升了个性化推荐效果。新方法如OPPU和HYDRA在多项测试中超越现有技术，推动了用户中心语言模型的发展。

个人化大型语言模型：根据个体偏好定制LLM

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）个性化对齐的挑战与风险，提出了三层次政策框架以确保符合人类偏好。研究介绍了OpenAssistant的发布及其优于ChatGPT的表现，强调了人类反馈在模型训练中的重要性，并提出了Contrastive Unlikelihood Training (CUT)框架以改进模型输出。研究还发现模型偏好可被操控，影响评分结果，强调了对齐的重要性。

WildFeedback：将大型语言模型与实时用户交互和反馈对齐

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）的安全性和对齐性，提出通过合成数据训练模型以减少偏见和隐私问题。研究引入了Guide-Align方法，显著提高了模型的安全性和质量，并讨论了个性化对齐的挑战，提出了三层政策框架，评估了多语言环境下的安全对齐性，强调了开发相应策略的必要性。

ABC 对齐：用于安全与准确性的大型语言模型对齐

BriefGPT - AI 论文速递 ·

本研究提出了一种新框架，通过奖励建模和高质量演示训练语言模型，避免依赖已对齐的LLMs。ALMoST模型在与InstructGPT的比较中表现优异，并通过细粒度监督提升了LLM性能。研究探讨了个性化对齐的挑战，提出线性对齐算法以提高效率，强调人类反馈在模型对齐中的重要性。

朝向与文本反馈对齐的语言模型

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型的个性化对齐及其安全性与隐私问题，提出了三层次政策框架以平衡用户体验与安全控制。研究分析了模型的脆弱性、潜在攻击及防御措施，并开发了中文 LLM 安全评估基准，评估了15个模型的安全表现。强调了人类偏好对模型输出的影响及隐私问题的重要性，呼吁更多关注用户隐私的研究。

个性化语言模型中的安全性 - 效用权衡探索

BriefGPT - AI 论文速递 ·

本文评估了医学大型语言模型（LLMs）的安全性和对齐性，提出微调作为缓解策略，并强调个性化对齐的重要性。研究提出了三层政策框架以确保符合人类价值观，通过测试多个LLMs发现，更符合人类意图的模型可信度更高。此外，引入了“负责任的语言模型开发”框架，以确保输出的公平性、安全性和稳健性，强调在机器学习流程中考虑这些因素的重要性。

确保安全和高质量的输出：面向语言模型的指南库方法

BriefGPT - AI 论文速递 ·