小红花·文摘 - 小红花技术领袖俱乐部

本研究探讨了大语言模型在处理代码混合输入时的不安全输出问题，揭示了导致有害行为的机制，并区分了普遍与文化特定的不安全查询，为理解这一现象提供了新见解。

Attributional Safety Failures in Large Language Models under Code-Mixed Perturbations

BriefGPT - AI 论文速递 ·

揭示大型语言模型控制的机器人对越狱物理攻击的脆弱性

揭示大型语言模型控制的机器人对越狱物理攻击的脆弱性

DEV Community ·