小红花·文摘

本研究提出了统一防御机制UniGuardian，有效应对大型语言模型（LLMs）面临的提示注入、后门攻击和对抗攻击问题，显著提升了对恶意提示的识别准确性和效率。