小红花·文摘

本研究提出了BadSR方法，旨在解决图像超分辨率模型易受后门攻击的问题。该方法提高了被污染高分辨率图像的隐秘性，并确保对干净图像的修改保持在受限范围内。实验结果表明，该方法在多种模型和数据集上具有高攻击成功率，显著影响下游任务。

BadSR: Stealthy Label Backdoor Attacks on Image Super-Resolution

BriefGPT - AI 论文速递 ·

本研究提出了一种主动水印隐藏方法，利用对抗优化算法增强水印强度并保持隐秘性。实验结果表明，即使在严重篡改的情况下，水印仍可被验证，显示出优越的隐秘性。

ROBIN: A Robust and Invisible Watermark for Diffusion Models Using Adversarial Optimization

BriefGPT - AI 论文速递 ·

研究提出新算法解决视觉语言模型的越狱攻击问题。通过隐秘感知攻击方法和Fano不等式分析，提升AI系统安全性。提出的跨模态信息检测器CIDER能识别恶意图像输入，增强模型安全性和鲁棒性。

信息论视角下的视觉语言模型的越狱性与隐秘性的权衡

BriefGPT - AI 论文速递 ·

该研究聚焦于多模态大型语言模型（MLLMs）的越狱攻击，提出了一种基于最大似然的算法，可以寻找“图像越狱提示”（imgJP），在多个未知提示和图像上实现对 MLLMs 的越狱。此外，揭示了 MLLM 越狱和 LLM 越狱之间的联系，并引入了一种基于构造的方法，将该方法应用于 LLM 越狱，比当前最先进的方法更高效。

COLD-Attack: 使用隐秘性与可控性越狱线性语言模型

BriefGPT - AI 论文速递 ·