小红花·文摘 - 小红花技术领袖俱乐部

阻止慢性攻击：Omnigent中的上下文政策

阻止慢性攻击：Omnigent中的上下文政策

Databricks ·

谷歌DeepMind发布白皮书，介绍Gemini 2.5在安全性方面的提升，特别是针对间接提示注入攻击的防御。通过自动化红队测试和模型强化，Gemini的防御能力显著提高，降低了攻击成功率，但仍需持续改进以应对不断演变的威胁。

提升Gemini的安全防护措施

Google DeepMind Blog ·

通过评估大型语言模型的鲁棒性和对间接提示注入攻击的防御方法，发现大型语言模型易受攻击。提出黑盒和白盒防御方法，白盒方法能有效降低攻击。激发未来研究工作。

PRSA：大型语言模型的提示反窃取攻击

BriefGPT - AI 论文速递 ·