小红花·文摘

谷歌在网络安全方面采取了多种现代化措施，包括威胁检测、漏洞管理和利用AI增强防御能力。通过安全设计和网络安全策略，确保云环境的安全性，并利用威胁情报追踪网络犯罪，通过红队测试发现系统弱点。

谷歌如何做到的：网络安全内幕

The Keyword ·

OpenAI推出的Guardrails安全框架旨在提升AI安全性，但研究显示其存在漏洞，攻击者可通过提示注入绕过安全检测，生成有害内容。这一发现突显了保护AI系统的挑战，专家建议采用独立验证和红队测试以增强防御。

PersonaTeaming：探索引入角色如何提升自动化AI红队测试的效果

Apple Machine Learning Research ·

2015年，我创立了一家专注于自动化渗透测试的网络安全软件公司。随着AI的发展，未来五年内，安全验证方式将发生显著变化。Pentera的愿景是通过AI实现情境化红队测试，使安全验证更加智能和互动。AI将贯穿测试生命周期，提高攻击模拟的准确性和实时性，保障企业安全。

AI 正在重塑安全渗透测试——Pentera创始人的愿景

FreeBuf网络安全行业门户 ·

在访谈中，The Motley Fool的Paolo del Mundo探讨了企业如何通过防护机制扩展AI应用，降低生成式AI的风险，包括提示注入和数据泄露。安全从业者需关注新型漏洞，OWASP大语言模型十大风险清单是良好起点。企业应清点LLM使用情况，确保负责任使用，实施输入输出净化和访问控制，保护敏感数据。红队测试和安全工具的集成至关重要，以确保模型行为受控并提升安全意识。

规模化应用生成式AI前，需先绘制LLM使用与风险图谱

FreeBuf网络安全行业门户 ·

谷歌DeepMind发布白皮书，介绍Gemini 2.5在安全性方面的提升，特别是针对间接提示注入攻击的防御。通过自动化红队测试和模型强化，Gemini的防御能力显著提高，降低了攻击成功率，但仍需持续改进以应对不断演变的威胁。

提升Gemini的安全防护措施

Google DeepMind Blog ·

本研究探讨了大型语言模型（LLMs）在红队测试中的局限性，并提出通过代码混合和语音扰动的新策略。研究表明，利用语音错误拼写的混合提示，成功绕过安全过滤器，文本和图像生成任务的成功率分别为99%和78%，对多语言模型的安全性改进具有重要意义。

Language Discrimination and Code-Mixing: Phonetic Perturbations in Code-Mixed Hinglish for Red-Teaming Large Language Models

BriefGPT - AI 论文速递 ·

AI代理是安全定时炸弹

The New Stack ·

AI系统在生活中日益重要，但存在缺陷。红队测试可识别其弱点，确保安全性。通过模拟攻击和偏见识别，组织能够改进系统，防止严重问题。随着AI技术的发展，建立强有力的安全措施至关重要。

AI安全研究揭示100种产品在黑客式测试后常见的漏洞

DEV Community ·

全国公安机关去年侦破1600余起网络黑客案，抓获4900人，维护网络安全。英国提议禁止公共部门支付勒索款，美国金融机构因数据泄露被罚超1.4亿元。微软认为红队测试仍需人类参与，多个行业和机构遭遇勒索软件攻击。

FreeBuf早报 | 由AI大模型生成的勒索软件被曝光；恶意软件利用0Day远程控制Linux

FreeBuf网络安全行业门户 ·

微软研究人员指出，尽管AI工具能简化红队测试中的攻击模拟，但人类的专业知识在发现漏洞和评估风险方面仍不可或缺。研究强调文化能力和情商在AI安全中的重要性，并指出生成式AI模型可能带来新漏洞，需关注操作员的心理健康。

AI抢不走的工作，微软力挺红队测试仍需人类“掌舵”

FreeBuf网络安全行业门户 ·

本研究提出生成对抗后缀提示器（GASP），旨在增强大型语言模型对越狱攻击的抵抗力。该方法结合人类可读提示生成与贝叶斯优化，显著提高攻击成功率，缩短训练时间，加快推理速度，为红队测试提供高效解决方案。

GASP: Efficient Black-Box Generation of Adversarial Suffixes for Large Language Models

BriefGPT - AI 论文速递 ·

“学生-教师”对抗红队测试探查AI漏洞以增强鲁棒性

DEV Community ·

本文探讨了大型语言模型（LLMs）的红队测试，旨在发现和减少潜在危害。研究通过分析模型行为、建立不良行为标准和应用红队方法，识别可引发有毒言论的提示，并构建了包含20,000条声明的CommonClaim数据集。提出了ASSERT和MART等自动红队技术，以提升模型安全性。同时引入HarmBench框架，比较多种红队测试方法，增强LLMs的鲁棒性，推动攻击与防御的共同发展。

通过自上而下的测试用例生成和多轮交互实现大型语言模型的全局自动化红队测试

BriefGPT - AI 论文速递 ·

OpenAI o1 系统卡外部测试人员致谢

OpenAI ·

本文探讨了大型语言模型的红队测试，提出了ASSERT方法以评估模型在不同环境下的鲁棒性。尽管现有模型有安全措施，但在语义相关场景中仍存在分类准确率差异，可能影响用户安全。此外，研究还涉及检测生成有害回应和改进翻译模型性能的方法。

OpenAI的红队测试是一个结构化的过程，旨在探查AI系统和产品的潜在风险，并构建更安全、更值得信赖的AI系统。红队测试发现了DALL-E 2的独特攻击面和风险，以及GPT-4的风险领域，为下游应用的安全开发提供借鉴意义。红队测试的主要局限性是依赖专家手工评估，未来需要加强自动化测试能力和扩大红队的多样性。红队测试在确保AI系统的安全部署中扮演着重要角色，其独特价值在于主动发现风险、换位思考和持续优化。

我参加了 OpenAI 红队的活动，并带来了一些笔记

FreeBuf网络安全行业门户 ·

OpenAI将于6月发布GPT-5，可能会提前发布。OpenAI优先考虑GPT-5的安全性，并进行严格的红队测试以识别潜在的系统漏洞。红队测试是AI开发领域中的重要安全措施，以应对强大的AI工具的能力。微软也在大力投资AI工具的红队测试。红队测试对于解决安全问题和确保负责任的AI开发至关重要。NIST和各种技术公司正在致力于制定AI红队测试标准。

GPT-5将在6月发布前进行「红队进攻测试」

FreeBuf网络安全行业门户 ·

谷歌如何做到的：网络安全内幕

OpenAI安全护栏框架破绽百出，简单提示注入即可绕过

PersonaTeaming：探索引入角色如何提升自动化AI红队测试的效果

AI 正在重塑安全渗透测试——Pentera创始人的愿景

规模化应用生成式AI前，需先绘制LLM使用与风险图谱

提升Gemini的安全防护措施

Language Discrimination and Code-Mixing: Phonetic Perturbations in Code-Mixed Hinglish for Red-Teaming Large Language Models

AI代理是安全定时炸弹

为何AI系统比以往任何时候都更需要红队测试

AI安全研究揭示100种产品在黑客式测试后常见的漏洞

FreeBuf早报 | 由AI大模型生成的勒索软件被曝光；恶意软件利用0Day远程控制Linux

AI抢不走的工作，微软力挺红队测试仍需人类“掌舵”

GASP: Efficient Black-Box Generation of Adversarial Suffixes for Large Language Models

“学生-教师”对抗红队测试探查AI漏洞以增强鲁棒性

通过自上而下的测试用例生成和多轮交互实现大型语言模型的全局自动化红队测试

OpenAI o1 系统卡外部测试人员致谢

STAR: 社会技术方法在红队化语言模型中的应用

微软在首份负责任人工智能透明报告中表示已取得重大进展

我参加了 OpenAI 红队的活动，并带来了一些笔记

GPT-5将在6月发布前进行「红队进攻测试」