小红花·文摘

GitHub为在MCP上运行的AI编码代理构建免疫系统

The New Stack ·

在ChatGPT中推出锁定模式和提升风险标签

OpenAI ·

提示注入：生成式人工智能安全挑战的新前沿

DEV Community ·

本研究提出了CachePrune防御机制，以应对大型语言模型在间接提示注入攻击中的脆弱性。该方法通过识别和修剪任务触发神经元，显著降低攻击成功率，同时保持响应质量，为构建更安全的人工智能系统提供支持。

CachePrune: 基于神经网络的间接提示注入攻击归因防御

BriefGPT - AI 论文速递 ·

DeepMind研究人员提出针对大型语言模型提示注入的防御措施

InfoQ ·

该研究提出了一种新颖的博弈论方法DataSentinel，有效解决了提示注入攻击检测的局限性，能够识别现有及自适应攻击，展示了其防护潜力。

DataSentinel: A Game-Theoretic Approach for Detecting Prompt Injection Attacks

BriefGPT - AI 论文速递 ·

通过结构化查询（StruQ）和偏好优化（SecAlign）防御提示注入攻击

The Berkeley Artificial Intelligence Research Blog ·

本研究提出了CaMeL防御机制，旨在解决大型语言模型在处理不可信数据时的提示注入攻击问题。CaMeL在AgentDojo平台上成功完成67%的任务，显示出其有效性和安全性。

Designing to Overcome Prompt Injection Attacks

BriefGPT - AI 论文速递 ·

Google Gemini的长期记忆易受一种钓鱼攻击的影响

InfoQ ·

本研究提出鲁棒工具代理系统（RTBAS），旨在解决现有工具代理系统在使用外部工具时面临的提示注入攻击和隐私泄露问题。RTBAS通过自动检测和执行工具调用，确保信息的完整性和机密性。实验结果表明，该系统有效防止攻击，任务效用仅损失2%。

RTBAS: Protecting Large Language Model Agents from Prompt Injection and Privacy Leakage Attacks

BriefGPT - AI 论文速递 ·

当提示注入攻击发生时：必应与AI的脆弱性

The New Stack ·

本研究探讨了提示注入攻击引发的大语言模型防御过度问题，提出了评估数据集NotInject和新防护模型InjecGuard，显著降低了触发词偏见，表现优异。

InjecGuard：基准测试与缓解提示注入防御过度

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的自然语言处理方法，通过分层输入筛选提高大语言模型对提示注入攻击的检测准确性，尽管假阳性率上升，但有效降低了漏报风险。

护墙 -- 提示注入检测框架

BriefGPT - AI 论文速递 ·

本文研究了大型语言模型在上下文学习中的脆弱性，尤其是在认知负荷过重时容易受到攻击。研究提出了一种新的提示注入攻击方法，成功率高达99.99%，显示现有安全机制不足，需开发更稳健的保护措施。

Cognitive Load Attacks: Prompt Injection in Long Contexts

BriefGPT - AI 论文速递 ·

本文研究了提示注入攻击对大语言模型翻译的影响，开发了测试工具以增强防御。研究扩展了攻击方法，涵盖WMT 2024所有语言对，并引入新攻击格式，展示了多样性和潜在威胁。

Test Suite for Prompt Injection Attacks in LLM-based Machine Translation

BriefGPT - AI 论文速递 ·

现有视觉语言人工智能模型在医学任务中存在严重漏洞，易受提示注入攻击。研究表明，微弱提示可导致模型输出有害信息，且人类观察者难以察觉。为此，提出了虚拟提示注入技术（VPI）及其他防御机制，以提高模型安全性，强调在临床应用前需解决这些安全隐患。

通过视觉提示注入的大型视觉语言模型对抗目标劫持的实证分析

BriefGPT - AI 论文速递 ·

如何防止提示注入攻击

IBM Blog ·

大型语言模型（LLM）存在提示注入攻击的安全漏洞。研究提出了理解和防御这些攻击的框架，并通过实验评估了不同模型的脆弱性。新方法DeceptPrompt和DrAttack在诱导攻击和成功率方面表现出有效性，强调了加强防御的重要性。

基于优化的提示注入攻击 LLM-as-a-Judge

BriefGPT - AI 论文速递 ·

本研究提出了ProAttack方法，通过提示实现干净标签的后门攻击，增强了隐蔽性。同时，探讨了提示注入攻击对大型语言模型的影响，提出了防御框架，并评估了多种模型的脆弱性。

神经执行：针对提示注入攻击的学习（和对学习的利用）执行触发器

BriefGPT - AI 论文速递 ·

本文指出大型语言模型在LLM集成应用中存在安全漏洞，容易受到提示注入攻击。作者提出了一般性的框架来理解和设计这种攻击，并提出了对应的防御框架。作者还对10个LLM和7个任务进行了系统评估。

LLM 集成应用中的提示注入攻击与防御

BriefGPT - AI 论文速递 ·