小红花·文摘

全球软件供应链安全演进：从 LiteLLM 投毒事件审视 Rust 包管理及分布式架构转型

刘家财的个人网站 ·

Harness Engineering 实践指南：落地探索的三大原则

phodal ·

当防护措施超出其目的时：关于大规模管理防御系统的教训

The GitHub Blog ·

黑客组织利用Anthropic的Claude Code工具对全球约30个目标实施了AI主导的网络攻击，成功入侵多家大型机构。这次攻击依赖高级AI Agent，显著减少了人类干预，标志着网络攻击能力的重大变革。安全专家建议加强AI防御机制，以应对新威胁。

首例AI主导的大规模网络攻击事件：人类干预降至最低

FreeBuf网络安全行业门户 ·

网络安全形势不断变化，攻击者利用载荷混淆技术绕过WAF和输入验证等防御机制。这些技术通过多种编码和变量操作，使恶意代码难以被检测。研究表明，攻击者在Log4Shell漏洞利用中成功应用了多层编码和JavaScript混淆，显著增加了安全系统的检测难度。

研究人员详解恶意脚本伪装与防御机制绕过技术

FreeBuf网络安全行业门户 ·

本文介绍了MASTERKEY框架，旨在自动化大语言模型聊天机器人的越狱攻击。研究揭示了现有防御机制的不足，并通过时间敏感性分析和强化学习生成有效的越狱提示，显著提高了多平台的越狱成功率，强调了AI安全与伦理的重要性。

南洋理工大学| MASTERKEY：面向大语言模型聊天机器人的自动化越狱攻击方法

FreeBuf网络安全行业门户 ·

文章讨论了大语言模型（LLMs）在应对对抗性扰动时的缺陷，强调在金融、法律和医疗等关键领域部署时需要更强的防御机制。评论者建议研究应包括人类的比较，以验证模型的推理能力。尽管人类和LLMs在处理信息时存在相似之处，但LLMs的表现仍需改进，以避免被无关信息分散注意力。

用猫干扰推理大模型：面向推理模型的查询无关对抗触发方法

程序师 ·

本研究创建了AJailBench，评估大型音频语言模型（LAMs）在越狱攻击下的安全性。结果表明，现有LAM在面对精心设计的音频攻击时存在明显脆弱性，强调了开发更强大防御机制的必要性。

Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models

BriefGPT - AI 论文速递 ·

本研究聚焦于大语言模型的越狱攻击，提出了ICE新方法，解决了查询次数多和跨模型泛化差的问题。通过开发BiSceneEval评估数据集，实验结果表明ICE在有效性和可转移性上优于现有技术，揭示了防御机制的脆弱性。

Exploring Jailbreak Attacks on Large Language Models through Intent Hiding and Distributed Approaches

BriefGPT - AI 论文速递 ·

本研究提出了一种名为FeRA的防御机制，旨在缓解联邦学习中的后门攻击。该机制通过跨客户端的特征表示注意力，区分良性与恶意客户端，显著降低攻击成功率，同时保持主任务的高准确性，适用于资源有限的边缘设备。

Defending the Edge: A Representative-Attention Mechanism for Mitigating Backdoor Attacks in Federated Learning

BriefGPT - AI 论文速递 ·

本研究探讨了图神经网络(GNN)在对抗攻击下的可解释性与鲁棒性。评估了六种GNN架构在不同防御机制下的表现，结果显示防御方法和模型特征对可解释性有显著影响，为开发鲁棒且可解释的GNN提供了基础。

Questioning the Robustness of Explainability in Graph Neural Networks: How Should We Respond?

BriefGPT - AI 论文速递 ·

本研究提出了CachePrune防御机制，以应对大型语言模型在间接提示注入攻击中的脆弱性。该方法通过识别和修剪任务触发神经元，显著降低攻击成功率，同时保持响应质量，为构建更安全的人工智能系统提供支持。

CachePrune: 基于神经网络的间接提示注入攻击归因防御

BriefGPT - AI 论文速递 ·

该研究提出了名为PiCo的越狱框架，针对多模态大型语言模型（MLLMs）的安全漏洞。PiCo通过逐层越狱策略，利用排版攻击和编程上下文指令嵌入有害意图，有效绕过现有防御机制，实验显示其攻击成功率显著高于现有方法，揭示了当前防御措施的缺陷。

PiCo: Jailbreaking Multimodal Large Language Models via Pictorial Code Contextualization

BriefGPT - AI 论文速递 ·

本研究提出了CaMeL防御机制，旨在解决大型语言模型在处理不可信数据时的提示注入攻击问题。CaMeL在AgentDojo平台上成功完成67%的任务，显示出其有效性和安全性。

Designing to Overcome Prompt Injection Attacks

BriefGPT - AI 论文速递 ·

新攻击方法利用隐性训练后门突破脑启发式人工智能网络的安全性

DEV Community ·

本研究提出了CtrlRAG，一种新型的对抗攻击方法，针对检索增强生成系统。该方法通过掩蔽语言模型动态优化恶意内容，实验结果表明其在情感操控和幻觉增强方面优于三种基线方法。同时，现有防御机制对CtrlRAG的有效性有限，强调了加强防御的必要性。

CtrlRAG: Black-box Adversarial Attacks Based on Masked Language Models in Retrieval-Augmented Language Generation

BriefGPT - AI 论文速递 ·

本研究探讨了多模态大语言模型中的知识投毒攻击，提出了MM-PoisonRAG框架，并开发了局部和全局投毒攻击策略。研究表明，这些攻击能够操控模型输出并降低其准确性，强调了构建更强防御机制的必要性。

MM-PoisonRAG: Disrupting Multimodal RAG through Local and Global Attacks

BriefGPT - AI 论文速递 ·

解锁多模态人工智能：视觉-语言模型的创新与防御机制

DEV Community ·

本研究解决了大型语言模型（LLMs）易受普遍越狱攻击的问题，这种攻击可系统性地绕过模型的安全防护。提出了宪法分类器的创新方法，通过自然语言规则生成合成数据，以训练模型的安全防护。在超过3000小时的红队测试中，未能找到能够从受限模型中提取信息的普遍越狱，显示出新分类器在防御性能和实际部署中的可行性。

宪法分类器：抵御普遍越狱的防御机制

BriefGPT - AI 论文速递 ·

本研究针对大型语言模型的安全漏洞，提出了一种通过通用魔法词攻击文本嵌入模型的方法。研究表明，新防御机制能够有效纠正文本嵌入的偏差，降低安全风险。

利用通用魔法词破解大型语言模型的安全防护

BriefGPT - AI 论文速递 ·