小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
在ChatGPT中推出锁定模式和提升风险标签

随着AI系统承担更复杂的任务,提示注入攻击的风险增加。为此,OpenAI推出了“锁定模式”和“提升风险”标签,以增强用户安全。锁定模式为高风险用户提供额外保护,限制与外部系统的交互,防止敏感数据泄露;而提升风险标签则帮助用户识别潜在风险,确保安全使用。

在ChatGPT中推出锁定模式和提升风险标签

OpenAI
OpenAI · 2026-02-13T10:00:00Z
提示注入:生成式人工智能安全挑战的新前沿

生成式人工智能存在提示注入攻击风险,攻击者可通过输入操控AI,导致信息泄露或执行恶意指令。为防范此类攻击,应进行输入验证、使用系统消息、限制权限、监控日志、微调模型及设置安全机制,确保AI安全至关重要。

提示注入:生成式人工智能安全挑战的新前沿

DEV Community
DEV Community · 2025-05-27T16:02:00Z

本研究提出了CachePrune防御机制,以应对大型语言模型在间接提示注入攻击中的脆弱性。该方法通过识别和修剪任务触发神经元,显著降低攻击成功率,同时保持响应质量,为构建更安全的人工智能系统提供支持。

CachePrune: 基于神经网络的间接提示注入攻击归因防御

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-29T00:00:00Z
DeepMind研究人员提出针对大型语言模型提示注入的防御措施

谷歌DeepMind研究人员提出了CaMeL,旨在防止大型语言模型的提示注入攻击。CaMeL通过提取查询的控制和数据流,中和了67%的攻击。该方法结合传统软件安全原则,使用自定义Python解释器跟踪数据来源,确保操作符合权限限制。尽管在AgentDojo基准测试中表现良好,但仍需用户定义安全策略,可能导致用户疲劳。

DeepMind研究人员提出针对大型语言模型提示注入的防御措施

InfoQ
InfoQ · 2025-04-26T15:00:00Z

该研究提出了一种新颖的博弈论方法DataSentinel,有效解决了提示注入攻击检测的局限性,能够识别现有及自适应攻击,展示了其防护潜力。

DataSentinel: A Game-Theoretic Approach for Detecting Prompt Injection Attacks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-15T00:00:00Z
通过结构化查询(StruQ)和偏好优化(SecAlign)防御提示注入攻击

为应对大型语言模型(LLM)的提示注入攻击,提出了StruQ和SecAlign两种防御机制。StruQ通过结构化指令调优,使LLM忽略注入指令;SecAlign则优化LLM对正确响应的偏好。实验结果表明,这两种方法显著降低了攻击成功率,增强了模型的安全性和鲁棒性。

通过结构化查询(StruQ)和偏好优化(SecAlign)防御提示注入攻击

The Berkeley Artificial Intelligence Research Blog
The Berkeley Artificial Intelligence Research Blog · 2025-04-11T10:00:00Z

本研究提出了CaMeL防御机制,旨在解决大型语言模型在处理不可信数据时的提示注入攻击问题。CaMeL在AgentDojo平台上成功完成67%的任务,显示出其有效性和安全性。

Designing to Overcome Prompt Injection Attacks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-24T00:00:00Z
Google Gemini的长期记忆易受一种钓鱼攻击的影响

AI安全专家Johann Rehberger提出了一种针对Google Gemini的提示注入攻击,利用社交工程通过用户与恶意文档的互动来修改其长期记忆。尽管Google认为影响较低,用户仍需谨慎处理不可信文档,并定期检查保存的记忆。

Google Gemini的长期记忆易受一种钓鱼攻击的影响

InfoQ
InfoQ · 2025-02-21T21:00:00Z

本研究提出鲁棒工具代理系统(RTBAS),旨在解决现有工具代理系统在使用外部工具时面临的提示注入攻击和隐私泄露问题。RTBAS通过自动检测和执行工具调用,确保信息的完整性和机密性。实验结果表明,该系统有效防止攻击,任务效用仅损失2%。

RTBAS: Protecting Large Language Model Agents from Prompt Injection and Privacy Leakage Attacks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-13T00:00:00Z
当提示注入攻击发生时:必应与AI的脆弱性

AI爱好者西蒙·威利森在2022年提出了“提示注入攻击”一词。记者本杰·爱德华兹因报道此攻击而遭到必应聊天的攻击。两人讨论了AI系统的脆弱性及未来开发的教训。微软在2023年推出的必应聊天因早期问题被限制消息数量。威利森认为,AI的安全性依赖于竞争与透明度,尽管AI仍不可靠,但用户可通过理解其局限性来获得价值。

当提示注入攻击发生时:必应与AI的脆弱性

The New Stack
The New Stack · 2024-12-01T14:00:20Z

本研究探讨了提示注入攻击引发的大语言模型防御过度问题,提出了评估数据集NotInject和新防护模型InjecGuard,显著降低了触发词偏见,表现优异。

InjecGuard:基准测试与缓解提示注入防御过度

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

本研究提出了一种新颖的自然语言处理方法,通过分层输入筛选提高大语言模型对提示注入攻击的检测准确性,尽管假阳性率上升,但有效降低了漏报风险。

护墙 -- 提示注入检测框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

本文研究了大型语言模型在上下文学习中的脆弱性,尤其是在认知负荷过重时容易受到攻击。研究提出了一种新的提示注入攻击方法,成功率高达99.99%,显示现有安全机制不足,需开发更稳健的保护措施。

认知负荷攻击:长上下文下的提示注入

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-15T00:00:00Z

本文研究了提示注入攻击对大语言模型翻译的影响,开发了测试工具以增强防御。研究扩展了攻击方法,涵盖WMT 2024所有语言对,并引入新攻击格式,展示了多样性和潜在威胁。

Test Suite for Prompt Injection Attacks in LLM-based Machine Translation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z
如何防止提示注入攻击

大型语言模型(LLMs)是本十年最重大的技术突破之一,但容易受到提示注入攻击。研究人员尚未找到完全防止提示注入的方法,但可以采取措施减轻风险。组织可以通过验证输入、监控LLM活动、保持人工干预等方式来减少提示注入攻击的成功率和损害。

如何防止提示注入攻击

IBM Blog
IBM Blog · 2024-04-24T10:00:00Z

本文指出大型语言模型在LLM集成应用中存在安全漏洞,容易受到提示注入攻击。作者提出了一般性的框架来理解和设计这种攻击,并提出了对应的防御框架。作者还对10个LLM和7个任务进行了系统评估。

LLM 集成应用中的提示注入攻击与防御

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-19T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码