本研究探讨了大语言模型在处理代码混合输入时的不安全输出问题,揭示了导致有害行为的机制,并区分了普遍与文化特定的不安全查询,为理解这一现象提供了新见解。
大型语言模型(LLMs)正在影响机器人技术,但易受越狱攻击。研究提出了RoboPAIR算法,使LLM控制的机器人能够执行有害行为,研究者在三种场景中成功进行了越狱。
完成下面两步后,将自动完成登录并继续当前操作。