小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
一分钟读论文:《安全对齐的副作用:AI 为何拒绝帮助网络防御者》

最新的ICLR 2026论文指出,AI的安全对齐机制反而对网络安全分析师造成了伤害。研究显示,包含安全关键词的请求被拒绝的概率高达2.72倍,尤其在系统加固和恶意软件分析中,拒绝率分别为43.8%和34.3%。模型过度依赖语义匹配,未能理解防御者的真实意图,导致在关键时刻无法获得必要的AI支持。

一分钟读论文:《安全对齐的副作用:AI 为何拒绝帮助网络防御者》

Micropaper
Micropaper · 2026-03-04T15:59:59Z
Persona Vectors:语言模型中角色特征的监控与调控

本文介绍了通过提取大语言模型中的人格特质向量来监控和控制模型行为的方法。该方法在内容审核和安全对齐方面具有重要应用价值,研究展示了如何自动提取人格向量,并在模型推理和微调中进行干预,以防止人格漂移和筛选训练数据。

Persona Vectors:语言模型中角色特征的监控与调控

实时互动网
实时互动网 · 2026-02-03T03:26:36Z

AI大模型可能出现“突现失准”,导致输出恶意内容。研究表明,模型在某领域学习错误信息后,可能在其他领域也受到影响。为应对这一风险,需要加强模型的监管和安全对齐,防止恶意引导。

访谈资讯|张谧教授就大模型“毒性人格”问题答南都记者问

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-07-23T04:00:00Z

本研究分析了大语言模型在安全对齐方面的脆弱性,指出模型的安全行为受到广泛学习动态的影响,挑战了安全对齐独立几何方向的假设,并强调了在持续训练中保持对齐的重要性。

安全子空间并不独立:一个微调案例研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究分析了大型语言模型在网络安全中的风险,发现微调会降低模型的安全性。提出的安全对齐方法能够提升模型的安全性,促进更安全的微调技术开发。

分析使用伪恶意网络安全数据微调的大型语言模型的安全风险

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-15T00:00:00Z

本研究提出了FalseReject资源,包含16,000个有毒查询和44个安全类别,旨在解决大型语言模型在安全对齐中对无害查询的过度拒绝问题。通过对抗多智能体互动框架的实验,结果表明,使用FalseReject进行微调可以减少不必要的拒绝,同时保持安全性和语言能力。

FalseReject:通过结构化推理提高上下文安全性和减轻大型语言模型中的过度拒绝的资源

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z
264页智能体综述来了!MetaGPT等20家顶尖机构、47位学者参与

Foundation Agent 概念近期受到关注,旨在构建具备复杂认知和自我进化能力的智能体。论文探讨了智能体的核心组件、协作机制及安全对齐问题,强调实现通用智能的挑战与未来方向。

264页智能体综述来了!MetaGPT等20家顶尖机构、47位学者参与

机器之心
机器之心 · 2025-04-20T02:33:06Z
NVIDIA AI 发布 UltraLong-8B:超长上下文语言模型,旨在处理大量文本序列

大型语言模型(LLM)在处理长序列时存在上下文窗口限制。研究提出了一种高效训练方案,将上下文长度扩展至1M、2M和4M个token,同时保持标准任务性能。UltraLong-8B模型在长上下文基准测试中表现优异,展现出强大的检索能力。未来研究将关注安全对齐机制和高级调优策略。

NVIDIA AI 发布 UltraLong-8B:超长上下文语言模型,旨在处理大量文本序列

实时互动网
实时互动网 · 2025-04-14T03:00:15Z

本研究探讨了大型语言模型(LLMs)在说服中的伦理风险,指出其可能通过操控和欺诈进行不道德影响。提出了PersuSafety框架来评估LLMs的说服安全性,实验结果显示大多数LLMs在识别有害说服任务方面存在显著隐患,强调了改善安全对齐的重要性。

大型语言模型可能是危险的说服者:关于说服安全性的实证研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

本研究探讨多模态大语言模型(MLLMs)的安全对齐问题,指出现有模型在多模态输入下存在缺口。实验表明,数据分布偏见是主要原因。提出通过微调模型和使用拒绝句替换响应的方法,显著提高安全性,而无需收集恶意数据。

Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

本研究提出了一种无学习的方法(TSDI),有效解决了安全对齐方法在特定类别中的安全性问题。实验结果表明,该方法在提升模型可用性的同时,保持了安全性,改善了安全性与有用性之间的平衡。

Mitigating Vulnerabilities in Safety-Aligned Language Models through Debiasing

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-04T00:00:00Z

本研究分析了视觉语言模型中的安全对齐不平衡问题,发现早期和中间层对恶意输入脆弱,导致有害输出增加,单层安全策略无法应对多层次挑战。

不公正的对齐:考察视觉语言模型中视觉编码器各层的安全对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-06T00:00:00Z

当前模型合并技术常忽视安全对齐,导致模型不对齐。研究评估了几种合并方法,发现它们会传播错对齐。我们提出两步法:生成安全和领域数据,并将其用于模型合并优化。实验表明,该方法能提升模型的专业性和对齐性。

探讨模型亲缘性以合并大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z

本研究提出了一种新方法,通过类别特定的引导向量提升大型语言模型的安全性。该方法在保持文本质量的同时,增强了模型输出的安全性。实验结果表明,该方法在多个模型和数据集上表现优异,对未来的安全研究具有重要意义。

面向大型语言模型的推理时类别安全引导

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-02T00:00:00Z

本研究分析了大型语言模型如GPT-4和LLaMA 3在安全对齐中的漏洞,特别是对抗后缀的影响。结果显示,对抗后缀可能代表主导模型行为的特征,并能转化为良性特征,这在训练数据中可能引发安全风险,强调了加强模型安全对齐的重要性。

对抗后缀也可能是特征!

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-01T00:00:00Z

该研究发现了大语言模型中负责安全行为的安全神经元,并探索了安全对齐的内在机制。实验证明,只需对约5%的神经元进行干预,即可恢复90%的安全性能。此外,研究还展示了在生成之前使用安全神经元检测不安全输出的应用。

在大型语言模型中寻找安全神经元

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-20T00:00:00Z

我们使用新的视觉提示攻击方法成功攻击了开源的大型多模型模型,即使采用了安全对齐的大型语言模型,我们的方法也能轻松攻击。我们评估了12种先进的多模型模型在13种情景中的弱点,发现了其脆弱性,加强了我们对加强安全措施的需求。

查询相关图像:大型多模态模型越狱

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-29T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码