自护:赋予 LLM 保护自身能力

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

研究发现语言模型的人工智能安全训练和红队测试存在语言不平等性跨语言漏洞,呼吁加强整体红队测试工作,开发具有广泛语言覆盖能力的多语言安全保护措施。

🎯

关键要点

  • 研究揭示语言模型的人工智能安全训练和红队测试存在语言不平等性跨语言漏洞。
  • 不安全的英文输入可以转化为低资源语言,从而规避 GPT-4 的安全机制。
  • GPT-4 在与不安全翻译输入互动时,提供可行建议的可能性高达 79%。
  • 跨语言漏洞主要适用于低资源语言,其他语言的攻击成功率显著较低。
  • 低资源语言的有限训练导致技术差距,现已对所有语言模型用户构成风险。
  • 公开的翻译 API 使任何人能够利用语言模型的安全漏洞。
  • 呼吁加强整体红队测试工作,开发广泛语言覆盖能力的多语言安全保护措施。
➡️

继续阅读