本研究提出了BadSR方法,旨在解决图像超分辨率模型易受后门攻击的问题。该方法提高了被污染高分辨率图像的隐秘性,并确保对干净图像的修改保持在受限范围内。实验结果表明,该方法在多种模型和数据集上具有高攻击成功率,显著影响下游任务。
本研究提出了一种主动水印隐藏方法,利用对抗优化算法增强水印强度并保持隐秘性。实验结果表明,即使在严重篡改的情况下,水印仍可被验证,显示出优越的隐秘性。
研究提出新算法解决视觉语言模型的越狱攻击问题。通过隐秘感知攻击方法和Fano不等式分析,提升AI系统安全性。提出的跨模态信息检测器CIDER能识别恶意图像输入,增强模型安全性和鲁棒性。
该研究聚焦于多模态大型语言模型(MLLMs)的越狱攻击,提出了一种基于最大似然的算法,可以寻找“图像越狱提示”(imgJP),在多个未知提示和图像上实现对 MLLMs 的越狱。此外,揭示了 MLLM 越狱和 LLM 越狱之间的联系,并引入了一种基于构造的方法,将该方法应用于 LLM 越狱,比当前最先进的方法更高效。
完成下面两步后,将自动完成登录并继续当前操作。