小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
AI 范式雷达:《Agent安全新范式:从静态对齐到动态诊断护栏》

AgentDoG 1.5 是一个轻量级的安全对齐框架,利用轨迹级诊断引擎和推理增强方法,实现静态安全分类到动态实时防护的转变。该框架识别跨步骤的累积风险,提升安全判断准确性,并支持免训练在线护栏设计,降低部署复杂度。研究显示,7B 参数模型在 R-judge 基准测试中达到了 GPT-5.4 级别的安全性能,为中小团队提供高效的安全解决方案。

AI 范式雷达:《Agent安全新范式:从静态对齐到动态诊断护栏》

Micropaper
Micropaper · 2026-06-13T00:00:00Z
一分钟读论文:《安全对齐的副作用:AI 为何拒绝帮助网络防御者》

最新的ICLR 2026论文指出,AI的安全对齐机制反而对网络安全分析师造成了伤害。研究显示,包含安全关键词的请求被拒绝的概率高达2.72倍,尤其在系统加固和恶意软件分析中,拒绝率分别为43.8%和34.3%。模型过度依赖语义匹配,未能理解防御者的真实意图,导致在关键时刻无法获得必要的AI支持。

一分钟读论文:《安全对齐的副作用:AI 为何拒绝帮助网络防御者》

Micropaper
Micropaper · 2026-03-04T15:59:59Z
Persona Vectors:语言模型中角色特征的监控与调控

本文介绍了通过提取大语言模型中的人格特质向量来监控和控制模型行为的方法。该方法在内容审核和安全对齐方面具有重要应用价值,研究展示了如何自动提取人格向量,并在模型推理和微调中进行干预,以防止人格漂移和筛选训练数据。

Persona Vectors:语言模型中角色特征的监控与调控

实时互动网
实时互动网 · 2026-02-03T03:26:36Z

AI大模型可能出现“突现失准”,导致输出恶意内容。研究表明,模型在某领域学习错误信息后,可能在其他领域也受到影响。为应对这一风险,需要加强模型的监管和安全对齐,防止恶意引导。

访谈资讯|张谧教授就大模型“毒性人格”问题答南都记者问

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-07-23T04:00:00Z

本研究分析了大语言模型在安全对齐方面的脆弱性,指出模型的安全行为受到广泛学习动态的影响,挑战了安全对齐独立几何方向的假设,并强调了在持续训练中保持对齐的重要性。

安全子空间并不独立:一个微调案例研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究分析了大型语言模型在网络安全中的风险,发现微调会降低模型的安全性。提出的安全对齐方法能够提升模型的安全性,促进更安全的微调技术开发。

分析使用伪恶意网络安全数据微调的大型语言模型的安全风险

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-15T00:00:00Z

本研究提出了FalseReject资源,包含16,000个有毒查询和44个安全类别,旨在解决大型语言模型在安全对齐中对无害查询的过度拒绝问题。通过对抗多智能体互动框架的实验,结果表明,使用FalseReject进行微调可以减少不必要的拒绝,同时保持安全性和语言能力。

FalseReject:通过结构化推理提高上下文安全性和减轻大型语言模型中的过度拒绝的资源

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z
264页智能体综述来了!MetaGPT等20家顶尖机构、47位学者参与

Foundation Agent 概念近期受到关注,旨在构建具备复杂认知和自我进化能力的智能体。论文探讨了智能体的核心组件、协作机制及安全对齐问题,强调实现通用智能的挑战与未来方向。

264页智能体综述来了!MetaGPT等20家顶尖机构、47位学者参与

机器之心
机器之心 · 2025-04-20T02:33:06Z
NVIDIA AI 发布 UltraLong-8B:超长上下文语言模型,旨在处理大量文本序列

大型语言模型(LLM)在处理长序列时存在上下文窗口限制。研究提出了一种高效训练方案,将上下文长度扩展至1M、2M和4M个token,同时保持标准任务性能。UltraLong-8B模型在长上下文基准测试中表现优异,展现出强大的检索能力。未来研究将关注安全对齐机制和高级调优策略。

NVIDIA AI 发布 UltraLong-8B:超长上下文语言模型,旨在处理大量文本序列

实时互动网
实时互动网 · 2025-04-14T03:00:15Z

本研究探讨了大型语言模型(LLMs)在说服中的伦理风险,指出其可能通过操控和欺诈进行不道德影响。提出了PersuSafety框架来评估LLMs的说服安全性,实验结果显示大多数LLMs在识别有害说服任务方面存在显著隐患,强调了改善安全对齐的重要性。

大型语言模型可能是危险的说服者:关于说服安全性的实证研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

本研究探讨多模态大语言模型(MLLMs)的安全对齐问题,指出现有模型在多模态输入下存在缺口。实验表明,数据分布偏见是主要原因。提出通过微调模型和使用拒绝句替换响应的方法,显著提高安全性,而无需收集恶意数据。

Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

本研究提出了一种无学习的方法(TSDI),有效解决了安全对齐方法在特定类别中的安全性问题。实验结果表明,该方法在提升模型可用性的同时,保持了安全性,改善了安全性与有用性之间的平衡。

Mitigating Vulnerabilities in Safety-Aligned Language Models through Debiasing

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-04T00:00:00Z

本研究分析了视觉语言模型中的安全对齐不平衡问题,发现早期和中间层对恶意输入脆弱,导致有害输出增加,单层安全策略无法应对多层次挑战。

Unfair Alignment: Examining the Security Alignment of Visual Encoders Across Layers in Visual Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-06T00:00:00Z

本文提出了一种可验证安全的消除-检查框架,以抵御大型语言模型中的恶意提示。研究表明,细调大型语言模型可能引入新的安全风险,现有的安全对齐措施无法有效应对。实验结果显示,该方法显著降低了攻击成功率,并指出了未来增强大型语言模型安全性的研究方向。

随机猴子在玩耍:随机增强轻松突破大型语言模型的安全对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-05T00:00:00Z

本研究提出了ADV-LLM框架,旨在增强大型语言模型的越狱能力。该方法通过迭代自我调优,显著降低了生成对抗后缀的计算成本,并在多种开源LLM上实现了近100%的攻击成功率,展示了其在安全对齐研究中的重要性。

Iterative Self-Tuning Large Language Models for Enhanced Jailbreaking Capabilities

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-24T00:00:00Z

研究表明,微调大型语言模型(LLMs)可能引入新的安全风险,现有的安全对齐措施无法有效应对。即使使用良性数据集,微调也可能降低模型的安全性。因此,建议加强微调过程的安全协议,并进行进一步研究以提升LLMs的安全性和对齐能力。

数据顾问:大型语言模型安全对齐的动态数据管理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

本研究提出了一种新方法,通过类别特定的引导向量提升大型语言模型的安全性。该方法在保持文本质量的同时,增强了模型输出的安全性。实验结果表明,该方法在多个模型和数据集上表现优异,对未来的安全研究具有重要意义。

面向大型语言模型的推理时类别安全引导

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-02T00:00:00Z

本研究分析了大型语言模型如GPT-4和LLaMA 3在安全对齐中的漏洞,特别是对抗后缀的影响。结果显示,对抗后缀可能代表主导模型行为的特征,并能转化为良性特征,这在训练数据中可能引发安全风险,强调了加强模型安全对齐的重要性。

Adversarial Suffixes May Also Be Features!

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-01T00:00:00Z

研究表明,微调大型语言模型(LLMs)可能引入新的安全风险,现有的安全对齐措施无法有效应对。即使使用良性数据集进行微调,也可能降低模型的安全性。提出了“纯微调,安全测试”(PTST)原则,以保持安全对齐,并建议未来研究应关注增强微调过程中的安全性。

与偏好优化的对齐是确保大型语言模型安全的唯一需要

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-12T00:00:00Z

本文提出了一种可验证安全的消除-检查框架(FAEF),旨在抵御恶意提示。研究表明,微调大型语言模型(LLMs)可能引入新的安全风险,现有的安全对齐措施无法有效应对。通过FAEF框架和新指标评估LLMs的安全性,发现其对齐程度不足。文章还提出后安全对齐方法,以提升安全性和实用性,强调系统提示在保护模型中的重要性。

无过度:通过安全意识激活引导减轻大语言模型的夸大安全

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-21T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码