本研究提出了“镜像”概念,针对动态越狱攻击,提供自适应防御方法。通过动态生成安全提示,MirrorGuard显著提升了对越狱攻击的防御能力。
本研究提出D-SEC模型,用于评估大语言模型的提示攻击防御。研究发现,集成防御机制可能降低用户体验,而自适应防御策略则能保持实用性,适用范围有限。
本研究提出时空梯度反演攻击(ST-GIA)算法,针对时空联邦学习中的用户数据隐私风险,能够有效重建原始位置。引入辅助语言模型的ST-GIA+方法解决了先验知识不足的问题,并设计了自适应防御策略,动态调整扰动水平,以平衡隐私保护与实用性。
完成下面两步后,将自动完成登录并继续当前操作。