语言模型如何受指导以保护个人信息?
原文中文,约400字,阅读约需1分钟。发表于: 。大规模多模式语言模型已在许多应用中证明具有变革性。然而,这些模型已被证明会记忆和泄漏预训练数据,引发用户隐私和信息安全方面的严重关切。我们介绍了 PrivQA - 一个多模式基准,用于评估在模拟场景中指示模型保护特定类别个人信息时,此隐私 /...
该文介绍了一个名为PrivQA的多模式基准,用于评估大规模多模式语言模型在保护个人信息和隐私方面的效用权衡。作者提出了一种通过迭代自我调节响应的技术,以提高隐私保护。然而,通过一系列红队实验,作者发现对手可以通过简单的越狱方法绕过这些保护,使用文本和/或图像输入。作者相信PrivQA有潜力支持开发具有改进隐私保护和对抗鲁棒性的新模型。整个PrivQA数据集已在指定的网址上发布。