小红花·文摘 - 小红花技术领袖俱乐部

本研究提出AEIOU框架，旨在解决文本到图像模型中的不安全提示问题。该框架通过提取文本编码器的隐状态特征，能够高效检测不安全提示，准确率超过95%。AEIOU在多种架构中表现优异，具备良好的抗适应性攻击能力。

AEIOU: A Unified Defense Framework Against Unsafe Prompts in Text-to-Image Models

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过稀疏自编码器引导语言模型在不安全提示下识别并拒绝回答，而无需更新模型权重。这种方法增强了语言模型的安全性，但特征引导可能对性能产生负面影响，需进一步研究。

Steering Language Model Refusal with Sparse Autoencoders

BriefGPT - AI 论文速递 ·