T2VSafetyBench 评估文本到视频生成模型的安全性
原文中文,约600字,阅读约需2分钟。发表于: 。Sora 的最新发展带来了文本到视频(T2V)生成的新时代,但也引起了对其安全风险的关注。文章引入了 T2VSafetyBench,这个新的基准旨在进行安全关键评估,定义了视频生成安全的 12 个关键方面并构建了恶意提示数据集,结果显示了模型的异质性和使用性与安全性之间的权衡,强调了在生成 AI 时优先考虑视频安全的紧迫性。
本文评估了商用T2I生成系统在版权侵权方面的安全性,并提出了一个自动越狱流程。研究发现,ChatGPT在使用简单提示时阻止了84%的攻击,而Copilot和Gemini只阻止了12%和17%。然而,作者成功越狱了ChatGPT,并提出了加强防御机制的必要性。