Attributional Safety Failures in Large Language Models under Code-Mixed Perturbations

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究探讨了大语言模型在处理代码混合输入时的不安全输出问题,揭示了导致有害行为的机制,并区分了普遍与文化特定的不安全查询,为理解这一现象提供了新见解。

🎯

关键要点

  • 本研究探讨了大语言模型在处理代码混合输入时的不安全输出问题。
  • 研究填补了当前针对代码混合输入导致不安全输出的研究空白。
  • 通过可解释性方法分析模型内部归因的变化,揭示了导致有害行为的机制。
  • 研究区分了普遍不安全与文化特定的不安全查询。
  • 提供了新的实验见解,以澄清不安全输出现象的驱动因素。
➡️

继续阅读