小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
CyberArk如何通过指令检测器和历史验证保护AI代理

为防止大型语言模型(LLMs)执行恶意指令,CyberArk的Niv Rabin提出需将所有输入视为不可信,直到验证。团队开发了基于指令检测和历史验证的多层防御机制,以确保模型仅处理经过验证的数据。

CyberArk如何通过指令检测器和历史验证保护AI代理

InfoQ
InfoQ · 2026-01-20T20:00:00Z

攻击者可以伪装恶意指令为URL,欺骗OpenAI Atlas浏览器执行不可信命令,研究人员警告该浏览器无法区分可信与不可信输入,存在安全隐患。

精心构造的URL可诱骗OpenAI Atlas执行危险指令

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-10-27T06:38:14Z

OpenAI的ChatGPT Atlas浏览器存在严重安全漏洞,攻击者可通过伪造URL注入恶意指令,绕过安全检查,导致用户数据被窃取或遭受钓鱼攻击。该漏洞源于地址栏的模糊解析机制,使恶意指令获得高权限。OpenAI已承认风险并采取防护措施,但专家警告此类攻击可能演变为广泛威胁。

OpenAI首款AI浏览器Atlas上线仅一周即被恶意提示词攻破

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-10-25T08:37:47Z

本文探讨了AI代理在区块链金融生态系统中的安全风险,特别是其脆弱性。研究指出,恶意指令通过上下文操控攻击可导致资产转移和协议违规,强调了开发安全、负责任的AI代理的重要性。

AI Agents in Cryptographic Lands: Practical Attacks and No Silver Bullet

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

网络安全研究人员揭示了一种名为“规则文件后门”的新型供应链攻击,影响AI代码编辑器如GitHub Copilot。攻击者通过在配置文件中注入恶意指令,操控AI生成有漏洞的代码,带来安全风险。这种攻击可悄然传播,影响开发者和最终用户,提醒我们需加强对AI工具的安全审查。

新型“规则文件后门”攻击:黑客通过AI代码编辑器注入恶意代码

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-03-18T13:13:00Z

研究人员引入了组合指令攻击(CIA)技术,通过将恶意提示隐藏在无害意图的指令中,成功率达到95%+。这项研究揭示了语言模型对组合指令攻击的脆弱性,对语言模型的安全性发展具有重要意义。

大型语言模型的提示模糊化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-17T00:00:00Z

大型语言模型的开源加速应用开发、创新和科学进步,但对于基础语言模型的固有指令限制是否可以防止滥用的普遍假设存在关键的疏忽。我们的研究通过演示表明,基础语言模型能够有效地解释和执行恶意指令,此漏洞无需特殊知识或训练即可被操纵,强调了对基础语言模型安全协议的紧急关注的重大风险。

透过上下文学习揭示基础大型语言模型的滥用潜力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-16T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码