小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种新方法,通过识别和修改负责安全约束的神经元,诱发大型语言模型的失调,揭示现有对齐技术的脆弱性,并强调需要加强对抗性微调攻击的防御。

NeuRel-Attack: Neural Relearning of Neurons for Security Disruption in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-29T00:00:00Z

本文探讨了大语言模型解释性研究中的区域化问题,提出了一种新技术,通过对齐技术寻找最佳局部编辑。研究发现,随机位置的最佳编辑效果与全模型对齐相当,而局部编辑的行为变化几乎没有编码目标行为的证据。

编辑是否提供区域化的证据?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z
Introducing UNA: A Unified Alignment Framework Integrating the Advantages of RLHF, DPO, and KTO

文章介绍了UNA方法,它统一了RLHF、DPO和KTO对齐技术。UNA通过通用隐式奖励函数简化训练流程,支持多种反馈数据,提升模型性能和稳定性。实验表明,UNA在任务表现、训练速度和内存占用方面优于传统方法,尤其在大规模模型处理上表现突出。

Introducing UNA: A Unified Alignment Framework Integrating the Advantages of RLHF, DPO, and KTO

机器之心
机器之心 · 2024-10-09T06:18:28Z

本文介绍了多种基于对齐的技术和算法,旨在提高语音和图像处理中的对齐效率和准确性。研究涵盖了AlignTTS、Bleualign算法、唤醒词系统的对齐方法以及多模态语言模型AlignGPT,均显示出在不同应用场景下的性能提升。

超单调对齐搜索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-12T00:00:00Z

本文综述了大型语言模型(LLM)的对齐技术,包括数据收集、训练方法和评估,探讨了外部与内部对齐方法的可解释性及潜在漏洞。研究表明,新方法URIAL显著提升了LLM对齐效率,自校准技术在降低人工成本方面表现优异。此外,提出了CodecLM框架和CodeUltraFeedback数据集,以优化模型与编码偏好的对齐,推动LLM发展。

I-SHEEP:通过迭代自增强范式从头自我对齐大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-15T00:00:00Z

本文综述了大型语言模型(LLM)的对齐技术,包括数据收集、训练方法和评估,探讨了对齐对模型性能的影响。研究提出了线性对齐算法及其他新方法,旨在提高模型的效率和安全性,同时关注人类偏好的多样性及其对全球表达的影响。

LLM 对齐技术综述:RLHF、RLAIF、PPO、DPO 等

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-23T00:00:00Z

研究表明,人类对语言模型的偏好和错误敏感度较低,倾向于支持符合自身观点的回答。高级语言模型如GPT-4-Turbo更注重正确性和清晰度。通过对齐技术,模型评分可被操控,显著影响评估结果。研究探讨了多种对齐方法及人类反馈在大型语言模型中的应用,并提出新的训练策略以提高模型对齐性能。

大型语言模型人类偏好学习综述

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-17T00:00:00Z

本文综述了大型语言模型(LLMs)的对齐技术,包括数据收集、训练方法和评估,探讨了可解释性和对抗攻击的漏洞。研究提出了新的对齐框架和策略,强调在临床应用中确保模型与人类意图一致的重要性,并建议改进实验设计以提升模型的总结能力和可信度。

对齐器:解耦 LLMs 和对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-07T00:00:00Z
超级对齐快速资助

超级智能可能在未来10年内出现,带来巨大的好处和风险。超人级AI系统将展示人类无法理解的复杂和创造性行为。对齐技术需要共同努力解决。Superalignment项目集结全球最优秀的研究人员和工程师来解决这一挑战。

超级对齐快速资助

OpenAI
OpenAI · 2023-12-14T08:00:00Z

本文介绍了如何通过对齐技术增强大型语言模型的有益性和无害性,并提出了灵活的训练框架和有效的微调技术。通过度量方法证明了这些对齐模型在诚实性方面的显著提高。

诚实对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-12T00:00:00Z
引入超级对齐

超级智能是人类历史上最具影响力的技术,但也存在巨大的风险。我们需要新的治理机构和方法来管理这些风险。目前的对齐技术无法适用于超级智能,我们需要新的科学和技术突破。

引入超级对齐

OpenAI
OpenAI · 2023-07-05T07:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码