小红花·文摘

自2022年ChatGPT问世以来，AI攻击手段显著演变，简单的恶意指令已失效。现代攻击结合高级技术，如策略性指令和编码混淆，利用语法反分类器等工具突破AI防护。研究表明，主流AI在面对对抗性攻击时表现相似，且大多数模型无法有效防御常见攻击。因此，AI安全需要多层防御策略以应对不断创新的攻击手段。

2025 与 2026 年 AI 红队测试现状

FreeBuf网络安全行业门户 ·

本研究分析了全无人商店中人工智能自动结算系统的安全漏洞，揭示了对抗性补丁攻击对物体检测模型的影响，可能导致盗窃和库存差异。提出了新型损失函数和攻效度量，强调了提升防御策略的必要性。

Robustness Analysis against Adversarial Patch Attacks in Fully Unmanned Stores

BriefGPT - AI 论文速递 ·

本研究针对文本到图像(T2I)模型生成不安全内容(NSFW)的问题，提出了一个包含大量提示和图像对的数据集，并开发了多模态防御机制，以降低对抗性攻击的成功率，提高NSFW检测的准确性和召回率。

Towards Safe Synthetic Image Generation: A Multimodal Robust NSFW Defense and Million Scale Dataset

BriefGPT - AI 论文速递 ·

本研究探讨了图链接预测模型在对抗性攻击下的脆弱性，特别是变分图自编码器（VGAE）的防御不足。研究表明，采用元学习技术的非加权图攻击方法显著降低了VGAE的预测性能，强调了模型鲁棒性的重要性。

Exploiting Meta-Learning-Based Attacks for Graph Link Prediction

BriefGPT - AI 论文速递 ·

本研究探讨了Kolmogorov和Arnold的表示定理在对抗性攻击中的稳健性，发现其对可数集合的连续对手具有一定的稳健性，但在外部函数的等连续性方面存在障碍，限制了其在神经网络理论中的应用。

对抗性KA

BriefGPT - AI 论文速递 ·

本研究提出了一种可解释的人工智能框架，用于检测虚拟现实中的网络眩晕攻击。该框架有效识别并缓解对抗性攻击，显著减少网络眩晕现象，提升用户的沉浸体验和安全性。

Securing Virtual Reality Experiences: Unveiling and Addressing Cybersickness Attacks with Explainable AI

BriefGPT - AI 论文速递 ·

本研究提出了框架SAMURAI，以保护AI硬件免受对抗性攻击。通过引入AI性能计数器和TANTO分析引擎，SAMURAI能够实时识别安全漏洞，检测准确率达到97%，显著优于传统方法。

Real-time Detection of Adversarial Attacks in AI Accelerators Using Performance Counters

BriefGPT - AI 论文速递 ·

本研究提出FLAME方法，旨在解决大型语言模型在用户交互中的审核挑战，增强其对抗性攻击的抵抗力，降低攻击成功率，同时保持低计算开销。

FLAME: A Flexible LLM-Assisted Content Moderation Engine

BriefGPT - AI 论文速递 ·

本文提出了一种基于密码学的水印框架，旨在保护脑电图神经网络的知识产权。该框架在训练过程中嵌入水印，确保高可靠性和低失真，并在对抗性攻击下保持良好的分类准确率，为医疗和生物识别领域提供安全解决方案。

Protecting Intellectual Property of EEG-Based Neural Networks Using Watermarking

BriefGPT - AI 论文速递 ·

本研究探讨了大语言模型（LLMs）在教育和医疗领域的安全隐患，分析了其脆弱性及与传统机器学习模型的区别，指出LLMs在对抗性攻击下的独特脆弱性，给相关领域的应用安全带来了新挑战。

Emerging Security Challenges of Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种图代理网络（GAgN），旨在增强图神经网络（GNNs）在节点分类中对抗性边缘干扰攻击的防御能力。GAgN通过去中心化代理的交互，有效过滤对抗边缘，从而提升分类准确性。

Grimm: A Plug-and-Play Perturbation Rectifier for Graph Neural Networks Defending Against Poisoning Attacks

BriefGPT - AI 论文速递 ·

本研究提出DG-Mamba框架，旨在解决动态图神经网络在结构不完整性、噪声和冗余性方面的鲁棒性不足问题。通过核化动态消息传递算子，DG-Mamba在保持高效性的同时提升了动态结构学习能力，实验结果表明其在对抗性攻击下的鲁棒性和效率优于现有方法。

DG-Mamba: Robust and Efficient Dynamic Graph Structure Learning with Selective State Space Models

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型在隐私保护方面的挑战，特别是数据泄露和对抗性攻击。总结了多种隐私保护机制的有效性，并强调在隐私敏感领域应用时融入隐私设计的重要性。

Privacy-Preserving Large Language Models: Mechanisms, Applications, and Future Directions

BriefGPT - AI 论文速递 ·

本研究提出了一种基于图神经网络的理论心理学架构（GIGO-ToM），旨在提高网络安全的可解释性。该方法通过网络传输距离（NTD）度量，有效预测对抗性网络攻击者的目标和行为，增强网络操作的战略决策能力。

Machine Theory of Mind for Autonomous Cyber Defense

BriefGPT - AI 论文速递 ·

本研究探讨了二元函数相似性系统在对抗性攻击下的脆弱性，提出了一种黑箱贪婪攻击方法，发现主流机器学习模型的攻击成功率高达95.81%。这表明高性能并不等于高鲁棒性，需进一步研究性能与鲁棒性的平衡。

Lack of Robustness in Binary Function Similarity Systems

BriefGPT - AI 论文速递 ·

本研究探讨了自动驾驶中基于激光雷达的感知系统面临的对抗性攻击及其安全隐患。通过分析威胁环境和防御策略，提出了增强系统鲁棒性的方法，以确保自动驾驶的安全性和可靠性。

A Survey on Adversarial Robustness of LiDAR-based Machine Learning in Autonomous Driving

BriefGPT - AI 论文速递 ·

本文提出了一个框架，旨在通过对抗性攻击微调机器生成内容以规避检测。研究表明，现有检测模型在10秒内可被攻破，导致误判机器文本为人类撰写。尽管模型的鲁棒性有所提高，实际应用仍面临挑战，凸显了对更准确检测方法的需求。

结合对抗训练、预训练语言模型与神经网络的文本分类模型：电信诈骗事件文本案例研究

BriefGPT - AI 论文速递 ·

本研究分析了视觉语言模型在特定攻击下的脆弱性，发现对抗性弹出窗口导致86%的成功率和47%的任务完成率下降，表明现有防御技术无效。

通过弹出窗口攻击视觉语言计算代理

BriefGPT - AI 论文速递 ·

本研究结合思维链提示与贪婪坐标梯度技术，以增强大型语言模型的安全性，提高其对抗性攻击的可迁移性和普遍性。

通过思维链增强对抗性攻击

BriefGPT - AI 论文速递 ·

本研究首次系统评估对抗性攻击的可转移性，分类多种增强方法，并引入TAA-Bench基准框架，提供标准化比较平台，揭示各方法的有效性与局限性，为学者和实践者提供参考。

GADT：通过梯度引导的对抗数据转换增强可转移对抗攻击

BriefGPT - AI 论文速递 ·