Language Discrimination and Code-Mixing: Phonetic Perturbations in Code-Mixed Hinglish for Red-Teaming Large Language Models
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究探讨了大型语言模型(LLMs)在红队测试中的局限性,并提出通过代码混合和语音扰动的新策略。研究表明,利用语音错误拼写的混合提示,成功绕过安全过滤器,文本和图像生成任务的成功率分别为99%和78%,对多语言模型的安全性改进具有重要意义。
🎯
关键要点
- 本研究探讨了现有红队测试仅集中于英语的局限性。
- 提出了一种利用代码混合和语音扰动的新策略以绕过大型语言模型的安全过滤器。
- 通过应用语音错误拼写到敏感词的混合提示,研究展示了在文本生成任务中成功率达到99%。
- 在图像生成任务中,成功率为78%。
- 研究结果对改进多语言多模态模型的安全性具有重要影响。
➡️