小红花·文摘

本研究提出了“镜像”概念，针对动态越狱攻击，提供自适应防御方法。通过动态生成安全提示，MirrorGuard显著提升了对越狱攻击的防御能力。

BriefGPT - AI 论文速递 ·

本研究探讨了大语言模型（LLM）在提示攻击防御中的动态性及合法用户可用性影响。提出D-SEC模型，通过“甘道夫”平台生成自适应攻击数据，发现集成防御机制可能降低用户体验，同时限制应用领域，影响自适应防御策略在保障安全的同时保持LLM的实用性。

BriefGPT - AI 论文速递 ·

本研究提出时空梯度反演攻击（ST-GIA）算法，针对时空联邦学习中的用户数据隐私风险，能够有效重建原始位置。引入辅助语言模型的ST-GIA+方法解决了先验知识不足的问题，并设计了自适应防御策略，动态调整扰动水平，以平衡隐私保护与实用性。

BriefGPT - AI 论文速递 ·