小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

自2022年ChatGPT问世以来,AI攻击手段显著演变,简单的恶意指令已失效。现代攻击结合高级技术,如策略性指令和编码混淆,利用语法反分类器等工具突破AI防护。研究表明,主流AI在面对对抗性攻击时表现相似,且大多数模型无法有效防御常见攻击。因此,AI安全需要多层防御策略以应对不断创新的攻击手段。

2025 与 2026 年 AI 红队测试现状

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-11-07T02:27:00Z

本研究分析了全无人商店中人工智能自动结算系统的安全漏洞,揭示了对抗性补丁攻击对物体检测模型的影响,可能导致盗窃和库存差异。提出了新型损失函数和攻效度量,强调了提升防御策略的必要性。

Robustness Analysis against Adversarial Patch Attacks in Fully Unmanned Stores

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本研究针对文本到图像(T2I)模型生成不安全内容(NSFW)的问题,提出了一个包含大量提示和图像对的数据集,并开发了多模态防御机制,以降低对抗性攻击的成功率,提高NSFW检测的准确性和召回率。

Towards Safe Synthetic Image Generation: A Multimodal Robust NSFW Defense and Million Scale Dataset

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-16T00:00:00Z

本研究探讨了图链接预测模型在对抗性攻击下的脆弱性,特别是变分图自编码器(VGAE)的防御不足。研究表明,采用元学习技术的非加权图攻击方法显著降低了VGAE的预测性能,强调了模型鲁棒性的重要性。

Exploiting Meta-Learning-Based Attacks for Graph Link Prediction

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-08T00:00:00Z

本研究探讨了Kolmogorov和Arnold的表示定理在对抗性攻击中的稳健性,发现其对可数集合的连续对手具有一定的稳健性,但在外部函数的等连续性方面存在障碍,限制了其在神经网络理论中的应用。

对抗性KA

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-07T00:00:00Z

本研究提出了一种可解释的人工智能框架,用于检测虚拟现实中的网络眩晕攻击。该框架有效识别并缓解对抗性攻击,显著减少网络眩晕现象,提升用户的沉浸体验和安全性。

Securing Virtual Reality Experiences: Unveiling and Addressing Cybersickness Attacks with Explainable AI

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-17T00:00:00Z

本研究提出了框架SAMURAI,以保护AI硬件免受对抗性攻击。通过引入AI性能计数器和TANTO分析引擎,SAMURAI能够实时识别安全漏洞,检测准确率达到97%,显著优于传统方法。

Real-time Detection of Adversarial Attacks in AI Accelerators Using Performance Counters

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z

本研究提出FLAME方法,旨在解决大型语言模型在用户交互中的审核挑战,增强其对抗性攻击的抵抗力,降低攻击成功率,同时保持低计算开销。

FLAME: A Flexible LLM-Assisted Content Moderation Engine

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-13T00:00:00Z

本文提出了一种基于密码学的水印框架,旨在保护脑电图神经网络的知识产权。该框架在训练过程中嵌入水印,确保高可靠性和低失真,并在对抗性攻击下保持良好的分类准确率,为医疗和生物识别领域提供安全解决方案。

Protecting Intellectual Property of EEG-Based Neural Networks Using Watermarking

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-09T00:00:00Z

本研究探讨了大语言模型(LLMs)在教育和医疗领域的安全隐患,分析了其脆弱性及与传统机器学习模型的区别,指出LLMs在对抗性攻击下的独特脆弱性,给相关领域的应用安全带来了新挑战。

Emerging Security Challenges of Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-23T00:00:00Z

本研究提出了一种图代理网络(GAgN),旨在增强图神经网络(GNNs)在节点分类中对抗性边缘干扰攻击的防御能力。GAgN通过去中心化代理的交互,有效过滤对抗边缘,从而提升分类准确性。

Grimm: A Plug-and-Play Perturbation Rectifier for Graph Neural Networks Defending Against Poisoning Attacks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z

本研究提出DG-Mamba框架,旨在解决动态图神经网络在结构不完整性、噪声和冗余性方面的鲁棒性不足问题。通过核化动态消息传递算子,DG-Mamba在保持高效性的同时提升了动态结构学习能力,实验结果表明其在对抗性攻击下的鲁棒性和效率优于现有方法。

DG-Mamba: Robust and Efficient Dynamic Graph Structure Learning with Selective State Space Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z

本研究探讨了大型语言模型在隐私保护方面的挑战,特别是数据泄露和对抗性攻击。总结了多种隐私保护机制的有效性,并强调在隐私敏感领域应用时融入隐私设计的重要性。

Privacy-Preserving Large Language Models: Mechanisms, Applications, and Future Directions

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-09T00:00:00Z

本研究提出了一种基于图神经网络的理论心理学架构(GIGO-ToM),旨在提高网络安全的可解释性。该方法通过网络传输距离(NTD)度量,有效预测对抗性网络攻击者的目标和行为,增强网络操作的战略决策能力。

Machine Theory of Mind for Autonomous Cyber Defense

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z

本研究探讨了二元函数相似性系统在对抗性攻击下的脆弱性,提出了一种黑箱贪婪攻击方法,发现主流机器学习模型的攻击成功率高达95.81%。这表明高性能并不等于高鲁棒性,需进一步研究性能与鲁棒性的平衡。

Lack of Robustness in Binary Function Similarity Systems

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z

本研究探讨了自动驾驶中基于激光雷达的感知系统面临的对抗性攻击及其安全隐患。通过分析威胁环境和防御策略,提出了增强系统鲁棒性的方法,以确保自动驾驶的安全性和可靠性。

A Survey on Adversarial Robustness of LiDAR-based Machine Learning in Autonomous Driving

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z

本研究探讨了视觉语言模型代理在面对对抗性弹出窗口攻击时的脆弱性,攻击成功率高达86%,导致任务完成率下降47%,表明现有防御技术无效。

Attacking Vision-Language Computer Agents via Pop-ups

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-04T00:00:00Z

本研究探讨了混合专家模型的安全隐患,提出了一种新攻击方式,通过将对抗者的查询与受害者的查询放在同一批次中,能够完全暴露受害者的提示信息。实验表明,仅需O({VM}^2)次查询即可提取完整提示。

Stealing User Prompts from Mixture of Experts

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

本研究结合思维链提示与贪婪坐标梯度技术,以增强大型语言模型的安全性,提高其对抗性攻击的可迁移性和普遍性。

Enhancing Adversarial Attacks through Chain of Thought

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-29T00:00:00Z

本文探讨了语音转换技术在保护用户隐私方面的有效性,指出其对熟悉攻击者的防护能力有限。研究展示了对抗性攻击对语音识别模型的影响,并提出了新的检测框架和方法,以提高音频欺骗的检测能力,确保语音数据的安全性和隐私保护。

减轻未经授权的语音合成以保护声音

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码