Apple Machine Learning Research ·

VLSU：绘制人工智能安全的联合多模态理解的边界

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

本文提出了视觉语言安全理解（VLSU）框架，用于系统评估多模态模型的安全性。研究发现，现有模型在图像-文本联合推理时准确率仅为20-55%。此外，模型在拒绝不安全内容与处理边界案例之间难以平衡，导致过度屏蔽和拒绝率下降。该框架揭示了模型的理解弱点，为未来研究奠定了基础。

🎯

关键要点

提出了视觉语言安全理解（VLSU）框架，用于系统评估多模态模型的安全性。
现有模型在图像-文本联合推理时准确率仅为20-55%。
模型在拒绝不安全内容与处理边界案例之间难以平衡，导致过度屏蔽和拒绝率下降。
该框架通过细致的严重性分类和组合分析，揭示了模型的理解弱点。
构建了一个包含8,187个样本的大规模基准，涵盖15个伤害类别。
评估发现，尽管模型在单一模态安全信号上准确率超过90%，但在联合推理时表现显著下降。
34%的联合图像-文本安全分类错误发生在单独模态正确分类的情况下，显示出缺乏组合推理能力。
指令框架可以减少边界内容的过度屏蔽率，但会导致对不安全内容的拒绝率下降。
该框架为未来研究提供了基础，促进稳健的视觉-语言安全研究的进展。

🏷️

继续阅读

彻底告别VE与VAE！商汤硬核重构多模态：砍掉所有中间编码器
商汤科技与南洋理工大学推出NEO-unify，重构多模态模型，去除视觉编码器和变分自编码器，实现统一的端到端架构。该模型通过混合变换器架构，提升视觉与语言...
NanoClaw可以将每个AI代理放入自己的Docker容器中，以应对OpenClaw的安全问题
机器人访问WhatsApp面临挑战。大多数OpenClaw用户使用WhatsApp，但没有商业账户无法创建新用户。WhatsApp连接依赖于Baileys...
人工智能是否正在消灭开源软件？
人工智能并未消灭开源软件，但正在改变其基本假设。AI带来了更多噪音和问题，尽管开发者能快速生成代码，但维护能力不足。许多项目已更新治理，有的禁止使用AI。...
央视点赞千问APP，“AI办事”让人工智能走进日常生活
央视点赞千问APP，推动AI办事进入日常生活。该APP通过语音交互满足个性化需求，受到大众，尤其是老年群体的欢迎。春节期间，1.3亿人体验AI下单，显示中...
在人工智能时代重新构建医疗科技
乔恩·韦特斯顿是8th Light的设计负责人，拥有超过25年的软件解决方案设计经验，专注于医疗、金融和消费品领域，擅长数字化转型指导。
如何使用GitHub安全实验室的开源AI驱动框架扫描安全漏洞
我们利用GitHub安全实验室的任务流代理，成功发现80多个开源项目中的高影响力安全漏洞，主要涉及授权绕过和信息泄露。新任务流提高了结果验证和报告发布的效...

VLSU：绘制人工智能安全的联合多模态理解的边界

内容提要

关键要点

标签

继续阅读