小红花·文摘 - 小红花技术领袖俱乐部

最新研究发现大型语言模型易受后门攻击。研究揭示了一种新的后门攻击方法，通过在用户输入中分发多个触发场景，在历史对话中出现所有触发场景时激活后门，成功率高。

探索聊天模型的后门漏洞

BriefGPT - AI 论文速递 ·