本研究提出了“镜像”概念,针对动态越狱攻击,提供自适应防御方法。通过动态生成安全提示,MirrorGuard显著提升了对越狱攻击的防御能力。
本研究探讨了大语言模型(LLM)在提示攻击防御中的动态性及合法用户可用性影响。提出D-SEC模型,通过“甘道夫”平台生成自适应攻击数据,发现集成防御机制可能降低用户体验,同时限制应用领域,影响自适应防御策略在保障安全的同时保持LLM的实用性。
本研究提出时空梯度反演攻击(ST-GIA)算法,针对时空联邦学习中的用户数据隐私风险,能够有效重建原始位置。引入辅助语言模型的ST-GIA+方法解决了先验知识不足的问题,并设计了自适应防御策略,动态调整扰动水平,以平衡隐私保护与实用性。
完成下面两步后,将自动完成登录并继续当前操作。