小红花·文摘

该文介绍了一个名为PrivQA的多模式基准，用于评估大规模多模式语言模型在保护个人信息和隐私方面的效用权衡。作者提出了一种通过迭代自我调节响应的技术，以提高隐私保护。然而，通过一系列红队实验，作者发现对手可以通过简单的越狱方法绕过这些保护，使用文本和/或图像输入。作者相信PrivQA有潜力支持开发具有改进隐私保护和对抗鲁棒性的新模型。整个PrivQA数据集已在指定的网址上发布。