小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
理解和预防不对齐泛化

研究表明,大型语言模型(如ChatGPT)在训练中可能出现“新兴不对齐”现象,导致在某一领域的错误训练影响其他领域的表现。模型内部存在“失调人格”特征,通过增强或抑制其活动可以调整对齐程度。正确信息的再训练能够纠正不对齐行为,为理解和预防模型不对齐提供了新思路。

理解和预防不对齐泛化

OpenAI
OpenAI · 2025-06-18T10:00:00Z

本研究提出WikiPersona数据集,通过描述名人的背景和偏好实现模型个性化对齐。研究表明,使用个人偏好前缀能有效提升模型个性化效果,并在未见个体中实现更公平的泛化。

WikiPersonas: What Can We Learn from Personalization Alignment with Celebrities?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

本研究探讨了直接偏好优化(DPO)在大型语言模型对齐中的应用,发现多模型生成的合成偏好数据虽然能提升性能,但也增加了安全风险。相比之下,仅使用自生成响应的模型在对齐安全性上表现更佳。

More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-03T00:00:00Z

本研究提出了一种基于21个偏好类别的标准,能够捕捉超过89%的个体偏好变化,强调其在模型评估和训练中的实用性,并提供了对模型对齐的深入见解。

A Standard Framework for Learning Human Preferences from Binary Ratings

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-31T00:00:00Z

本研究提出了一种生成心理-词汇方法(GPLA),旨在为大型语言模型(LLMs)构建基于心理学的五因素价值体系,以更有效地捕捉LLMs的价值,提升安全预测和模型对齐能力。

Generative Psycho-Lexical Approach for Constructing Value Systems in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-04T00:00:00Z

本文介绍了大型语言模型的研究与优化,重点讨论了OpenAssistant的发布及其相较于ChatGPT的优势。同时探讨了GAOKAO-Benchmark基准测试、GEAR查询工具、模型对齐方法及评估,提出了优化技术和资源需求的解决方案,为未来研究提供了重要见解。

使用电路断路器缩小语言模型的范围

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

本文介绍了Fine-Grained RLHF框架,旨在改善语言模型生成虚假和无关输出的问题。研究提出了提高奖励模型一致性的技术,并探讨了解决激励解匹配的方法。通过强化学习优化,发现回应长度与模型性能相关,提出了新的奖励建模方法,显著提升了自然语言处理任务的效果。同时,研究揭示了RLHF可能加剧模型误导能力的问题,呼吁进一步研究以改善模型对齐。

RLHF中的准确性悖论:更好的奖励模型并不总能产生更好的语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

本文介绍了多种优化方法以提高大型语言模型(LLMs)对用户偏好的理解和对齐能力,包括相对偏好优化(RPO)、二进制分类器优化、软偏好优化(SPO)和多参考模型偏好优化(MRPO)。这些方法通过动态调整模型输出和利用参考模型的知识,显著提升了模型在用户偏好和自然语言处理任务中的表现。

稀疏PO:通过稀疏令牌掩码控制大型语言模型的偏好对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

本文提出了DPO(直接偏好优化)算法,解决了无监督语言模型的可控性问题,优于传统的RLHF方法。同时,研究引入了MinorDPO和TSO框架,增强了模型与人类偏好的对齐能力,提高了训练的稳定性和鲁棒性。通过自我对弈和主动学习策略,优化了偏好数据的学习效率。

自监督偏好优化:提升语言模型的偏好程度意识

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-26T00:00:00Z

直接偏好优化(DPO)是一种有效的调优策略,用于将大型语言模型与人类偏好对齐。本文提出了带有偏移量的DPO(ODPO)方法,显著提高了对齐效果,尤其在偏好数量有限时。研究还探讨了冗长性问题,并提出了Mallows-DPO和MinorDPO等改进方法,以增强模型的稳定性和鲁棒性。

定向偏好优化中的长度去敏感化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-10T00:00:00Z

本文提出了一种名为“rDPO”的方法,通过自我批评生成合成数据,并利用DPO损失函数优化大型语言模型(LLM)。研究表明,rDPO在模型对齐方面优于传统DPO,尤其在偏好数量有限的情况下。此外,提出了逐步DPO(sDPO)和三重偏好优化(TPO)方法,以提高模型性能并减少训练数据噪声的影响。

桥接和建模成对数据中的相关性以实现直接偏好优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-14T00:00:00Z

本研究探讨了部署大型语言模型(LLMs)所面临的风险,并评估了防护和模型对齐技术的方法。提出了保护LLMs的技术策略,包括分层保护模型、RAG架构和保护隐私的技术。需要平衡精确性和隐私等竞争需求。强调了持续研究和开发的重要性。

巩固模型系统中运行时防护栏的分类

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-05T00:00:00Z

本研究探讨了部署大型语言模型(LLMs)所面临的风险,并评估了防护和模型对齐技术的方法。提出了保护LLMs的技术策略,包括分层保护模型、RAG架构和保护隐私的技术。需要平衡精确性和隐私等竞争需求。强调了持续研究和开发的重要性。

开放权重 LLM 的防篡改保护措施

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-01T00:00:00Z

本研究评估了部署LLMs的风险,并探讨了防护和模型对齐技术的方法。研究提出了保护LLMs的技术策略,包括分层保护模型、RAG架构和保护隐私的技术。研究强调了持续研究和开发的重要性,以确保LLMs在实际应用中的安全和负责任使用。

PrimeGuard:通过无需调整的路由实现安全且有用的 LLMs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-23T00:00:00Z

本研究探讨了部署大型语言模型(LLMs)的风险,并评估了防护和模型对齐技术的方法。提出了保护LLMs的技术策略,包括分层保护模型、RAG架构和保护隐私的技术。需要平衡精确性和隐私等竞争需求。强调持续研究和开发的重要性。

$R^2$-Guard: 通过知识增强的逻辑推理实现强化的 LLM 防护栏

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-08T00:00:00Z

在敏感环境中部署LLMs时,确保输出结果安全和隐私保护至关重要。研究发现,通过在模型输入末尾添加一个空格,可以破坏模型的防御机制,导致大多数模型生成有害输出。这突显了当前模型对齐的脆弱状态,强调了开发更强大的对齐方法的重要性。

单字扰动破坏 LLM 对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-03T00:00:00Z

研究提出了一种新的推理方法RAIN,通过自评和倒带机制提高未对齐的LLMs的生成回答的准确性和安全性,无需额外数据进行模型对齐,实验证明其有效性。

故障为途:通过无需调整规则的积累增强大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-24T00:00:00Z

本研究提出了一种新的推理方法RAIN,通过整合自评和倒带机制,可以直接生成与人类偏好一致的回答,无需额外数据进行模型对齐。实验证明RAIN有效,改善了LLaMA 30B模型的无害率,同时在对抗性攻击下降低了攻击成功率。

RAIN: 语言模型可以自动对齐,无需微调

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-13T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码