本次演讲讨论了提示注入及其防御方法。提示分为系统提示、上下文和用户输入,提示注入可能导致模型执行不当操作,如泄露商业或个人信息。防御措施包括避免在提示中包含敏感信息、使用对抗性提示检测器和微调模型以增强安全性。尽管厂商在改进防御机制,但完全防止攻击仍然困难。
本文介绍了OOD-CV数据集及其在鲁棒性研究中的贡献,提出了多种提升对抗性检测性能的方法,包括监督对比学习、局部自回归模型和基于鲁棒学习的目标检测框架。这些方法在异常检测和域适应问题上表现优异,推动了相关领域的发展。
完成下面两步后,将自动完成登录并继续当前操作。