FreeBuf网络安全行业门户 ·

单比特翻转攻击：Rowhammer技术可向AI模型植入隐蔽后门

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

研究团队开发了'OneFlip'攻击技术，通过单比特翻转操控AI模型，可能导致自动驾驶和人脸识别系统出现错误识别。该技术在多种深度神经网络架构上成功率高达99.9%，且难以被现有防御措施检测。攻击需要获取模型权重并物理接触受害设备。

🎯

🔎

OneFlip攻击技术的成功率高达99.9%，这意味着在自动驾驶和人脸识别等关键领域，AI系统可能面临严重的安全隐患。攻击者可以通过简单的单比特翻转，导致系统错误识别，从而引发事故或安全漏洞，尤其是在高精度模型中，影响更为显著。

成功实施OneFlip攻击需要满足三个条件：获取模型权重、使用易受Rowhammer攻击的DRAM、以及物理接触受害设备。这些条件限制了攻击的普遍性，但一旦满足，攻击者便能轻易操控AI模型，显示出该技术的潜在威胁。

当前的AI模型后门检测方法无法识别OneFlip攻击导致的误分类，主要因为这些方法多针对训练阶段设计。即使有些方法适用于推理阶段，其计算开销也使得频繁检测变得不切实际。因此，开发有效的输入过滤机制显得尤为重要，以防止触发器激活。

❓

OneFlip攻击技术通过翻转易受攻击的DRAM模块中的单个比特位，操控AI模型的输出结果。

OneFlip攻击可能导致自动驾驶系统错误识别重要路标，从而引发事故。

实施OneFlip攻击需获取模型权重、使用易受Rowhammer攻击的DRAM，并物理接触计算机。

OneFlip在多种深度神经网络架构上的攻击成功率高达99.9%。

现有的AI模型后门检测方法无法识别OneFlip导致的误分类。

输入过滤方法可能阻断此类攻击，防止触发器激活误分类。

🏷️