小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出SAFEPATH方法,通过生成短暂安全提示,显著降低大型推理模型的有害输出,安全性提升90.0%,同时保持推理性能。

SAFEPATH: Preventing Harmful Reasoning in Thought Chains through Early Alignment

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z
通过传输激活控制语言和扩散模型

苹果研究人员提出了一种新技术——激活传输(AcT),该技术利用最优传输理论,在不增加计算负担的情况下,实现对大型生成模型输出的精细控制。此方法适用于语言和图像生成,能有效减少有害输出并提高真实性,克服了传统方法的局限性。

通过传输激活控制语言和扩散模型

Apple Machine Learning Research
Apple Machine Learning Research · 2025-04-10T00:00:00Z

微软研究团队提出了“上下文一致性攻击”(CCA算法),该算法利用大模型的会话历史漏洞,允许攻击者伪造对话历史,从而诱导模型生成有害输出。该算法简单易用,已在多个模型上成功测试,显示出其有效性。

大模型越狱(通常)比你想象的容易——一种基于伪造对话历史的攻击算法

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-03-13T08:37:29Z

本研究提出了一种模块化动态解决方案,旨在解决多模态生成模型在大规模非策划数据集训练中产生的有害输出问题。该方法通过安全上下文嵌入和双重重建过程,生成更安全的图像,并在基准测试中取得了领先的结果。

无语义扰动的安全性:基于上下文保留的双重潜在重建的无编辑安全图像生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z
通过提示操控破解大型语言模型的新攻击向量

本文介绍了一种名为“DrAttack”的新攻击方法,通过分解和重构输入提示,有效破解大型语言模型(LLMs),如GPT-3。该方法利用LLM在提示处理中的漏洞,绕过安全限制,导致模型生成有害输出。

通过提示操控破解大型语言模型的新攻击向量

DEV Community
DEV Community · 2024-11-13T08:35:10Z

本研究分析了视觉语言模型中的安全对齐不平衡问题,发现早期和中间层对恶意输入脆弱,导致有害输出增加,单层安全策略无法应对多层次挑战。

不公正的对齐:考察视觉语言模型中视觉编码器各层的安全对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-06T00:00:00Z

本文介绍了一种新机制,通过逐步防御架构解决大型语言模型解码时的有害输出问题。该方法在提升安全性的同时保持推理速度,减少对模型有用性的影响。

根部防御策略:确保大型语言模型在解码层的安全性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

研究发现,大型语言模型可被操纵以增加或减少越狱概率。提出了越狱攻击和守护方法,通过恶意上下文引导模型生成有害输出,并通过拒绝回答有害提示的演示来增强模型的鲁棒性。实验表明,这些方法在增加或减少敌对越狱攻击成功率方面是有效的。

使用少量上下文示例对越狱和防卫对齐的语言模型进行训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-10T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码