小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种新方法,通过识别和修改负责安全约束的神经元,诱发大型语言模型的失调,揭示现有对齐技术的脆弱性,并强调需要加强对抗性微调攻击的防御。

NeuRel-Attack: Neural Relearning of Neurons for Security Disruption in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-29T00:00:00Z

本文探讨了大语言模型解释性研究中的区域化问题,提出了一种新技术,通过对齐技术寻找最佳局部编辑。研究发现,随机位置的最佳编辑效果与全模型对齐相当,而局部编辑的行为变化几乎没有编码目标行为的证据。

编辑是否提供区域化的证据?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z
综合RLHF、DPO、KTO优势,统一对齐框架UNA来了

文章介绍了UNA方法,它统一了RLHF、DPO和KTO对齐技术。UNA通过通用隐式奖励函数简化训练流程,支持多种反馈数据,提升模型性能和稳定性。实验表明,UNA在任务表现、训练速度和内存占用方面优于传统方法,尤其在大规模模型处理上表现突出。

综合RLHF、DPO、KTO优势,统一对齐框架UNA来了

机器之心
机器之心 · 2024-10-09T06:18:28Z

本文深入探讨了接近AGI的关键问题和实现策略,提出了必要能力框架和对齐技术,并概述了实现AGI的挑战和途径。旨在促进研究人员和实践者之间的理解,并引发公众讨论。

我们离 AGI 还有多远

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-16T00:00:00Z
超级对齐快速资助

超级智能可能在未来10年内出现,带来巨大的好处和风险。超人级AI系统将展示人类无法理解的复杂和创造性行为。对齐技术需要共同努力解决。Superalignment项目集结全球最优秀的研究人员和工程师来解决这一挑战。

超级对齐快速资助

OpenAI
OpenAI · 2023-12-14T08:00:00Z

本文介绍了如何通过对齐技术增强大型语言模型的有益性和无害性,并提出了灵活的训练框架和有效的微调技术。通过度量方法证明了这些对齐模型在诚实性方面的显著提高。

诚实对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-12T00:00:00Z
引入超级对齐

超级智能是人类历史上最具影响力的技术,但也存在巨大的风险。我们需要新的治理机构和方法来管理这些风险。目前的对齐技术无法适用于超级智能,我们需要新的科学和技术突破。

引入超级对齐

OpenAI
OpenAI · 2023-07-05T07:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码