小红花·文摘 - 小红花技术领袖俱乐部

本研究探讨生成AI工具的安全性，提出基于信号处理的计算安全框架，量化安全挑战，并通过敏感性分析检测恶意输入，识别研究机会。

生成AI的计算安全性：信号处理的视角

BriefGPT - AI 论文速递 ·

本研究分析了视觉语言模型中的安全对齐不平衡问题，发现早期和中间层对恶意输入脆弱，导致有害输出增加，单层安全策略无法应对多层次挑战。

Unfair Alignment: Examining the Security Alignment of Visual Encoders Across Layers in Visual Language Models

BriefGPT - AI 论文速递 ·