小红花·文摘

本研究探讨了大型语言模型（LLMs）在红队测试中的局限性，并提出通过代码混合和语音扰动的新策略。研究表明，利用语音错误拼写的混合提示，成功绕过安全过滤器，文本和图像生成任务的成功率分别为99%和78%，对多语言模型的安全性改进具有重要意义。

Language Discrimination and Code-Mixing: Phonetic Perturbations in Code-Mixed Hinglish for Red-Teaming Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的越狱框架，通过分段和分布式提示处理，成功绕过大型语言模型的安全过滤器。测试结果显示，该框架在生成恶意代码方面的成功率达到73.2%，对安全漏洞评估具有潜在影响。

通过分段和分布式提示处理绕过大型语言模型安全过滤器

BriefGPT - AI 论文速递 ·

本研究分析了大型语言模型（LLMs）生成个性化虚假信息的能力，发现大多数模型的安全过滤器效果不佳，个性化反而降低了过滤器的激活率，强调了加强安全措施的必要性。

Assessment of Vulnerabilities in Large Language Models for Generating Personalized Misinformation

BriefGPT - AI 论文速递 ·

不要忽视编码方案：漏洞赏金猎人绕过过滤器的必备技巧

DEV Community ·

电子邮件成为网络钓鱼攻击的主要目标，威胁行为者利用合法平台实施重定向攻击，绕过安全过滤器，利用用户信任传播恶意软件。Google等平台也被滥用。需加强网络钓鱼防护，保持警惕。

可信域名中的隐藏风险：邮件网络钓鱼攻击中的欺骗性URL重定向

FreeBuf网络安全行业门户 ·

本文介绍了一种使用学习规划和逆强化学习的安全过滤器，能够过滤生成的轨迹并评分，最终实现自主驾驶。作者使用专家驾驶实例进行了实验验证，并公开了数据集以供未来研究使用。

闭环中学习真实交通代理

BriefGPT - AI 论文速递 ·

该文介绍了SurrogatePrompt框架，可自动扩展攻击提示的创建。成功展示了对Midjourney的首个prompt攻击，并建议通过替换可疑提示中的高风险部分来规避闭源安全措施。攻击提示下，绕过Midjourney的专有安全过滤器的成功率达到88％，导致生成描绘政治人物处于暴力情境中的冒牌图像。主观和客观评估均验证了攻击提示生成的图像存在相当大的安全风险。

文本图像模型的安全过滤器绕过方法

BriefGPT - AI 论文速递 ·