小红花·文摘

AI 范式雷达：《Agent安全新范式：从静态对齐到动态诊断护栏》

Micropaper ·

Anthropic Fable神话破灭：所谓安全护栏惹争议

极道 ·

大家承诺的AI护栏在哪里？

The New Stack ·

基于生成AI的开发平台 - 第1部分：护栏

Microservice architecture ·

不止损，你迟早会亏光：新手交易者的第一道风控护栏

forecho 的独立博客 ·

AI安全公司HiddenLayer的研究发现，主流大语言模型（如GPT-5.1、Claude和Gemini）存在EchoGram漏洞。攻击者可利用特定词语绕过防护，导致恶意请求被误判为安全，或无害请求被视为危险。这可能引发安全团队的“警报疲劳”，降低系统信任度。研究者警告开发者需在约3个月内修复此漏洞，以应对AI的广泛应用。

EchoGram漏洞可绕过主流大语言模型的护栏机制

FreeBuf网络安全行业门户 ·

研究人员攻破了OpenAI的Guardrails安全护栏，利用提示注入方法绕过安全检测，生成危险内容。攻击者能够同时操控生成模型和安全评估模型，导致系统漏洞。专家警告，依赖模型评估可能造成虚假安全感，建议采用独立验证和持续对抗测试以增强防御。

OpenAI安全护栏破绽百出，简单提示注入即可绕过

FreeBuf网络安全行业门户 ·

AI编程助手如Cursor和Claude提高了开发效率，但也带来了安全风险。思科推出的开源框架CodeGuard旨在将安全实践融入AI编程工作流中，确保生成代码的安全性。CodeGuard提供社区驱动的规则集，自动防止安全问题，贯穿开发生命周期，帮助开发者在享受AI便利的同时降低安全隐患。

思科开源CodeGuard，为AI编程筑起“安全护栏”

FreeBuf网络安全行业门户 ·

铺设道路、黄金路径、护栏与铁路

The New Stack ·

全球网络安全事件包括：OpenAI安全框架被攻破，AMD处理器漏洞影响虚拟机安全，未监控的JavaScript成为假日季威胁，黑客利用Discord构建隐蔽网络，EDR-Freeze技术被滥用，Clevo固件泄露Intel私钥，微软修复Edge漏洞，黑客联盟窃取Salesforce数据，Happy DOM曝出RCE漏洞，伪造Homebrew网站攻击macOS用户。

FreeBuf早报 | OpenAI安全护栏框架破绽百出；AMD安全加密虚拟化技术漏洞

FreeBuf网络安全行业门户 ·

OpenAI推出的Guardrails安全框架旨在提升AI安全性，但研究显示其存在漏洞，攻击者可通过提示注入绕过安全检测，生成有害内容。这一发现突显了保护AI系统的挑战，专家建议采用独立验证和红队测试以增强防御。

OpenAI安全护栏框架破绽百出，简单提示注入即可绕过

FreeBuf网络安全行业门户 ·

企业 AI 开放平台 GenAI 代码新增护栏和 AMD EPYC 支持

实时互动网 ·

治理即代码：您基础设施的缺失护栏

The New Stack ·

本研究旨在解决大型语言模型在多语言环境下容易遭受恶意攻击的问题，尤其是缺乏安全对齐的多语言数据。我们提出了一种创新的方法，通过生成合成的多语言数据、监督微调和课程引导的群体相对策略优化框架，构建了一种具有推理能力的多语言护栏，实验结果表明该护栏在不同语言的内容过滤与检测中表现优越。

多语言推理护栏：使用课程学习的MR. Guard

BriefGPT - AI 论文速递 ·

小米SU7致命车祸深度追踪：并非简单追尾，高速失控撞击护栏细节曝光，NOA系统争议与驾驶员责任界定引发全网热议，雷军罕见回应是危机公关还是战略布局？

硕鼠的博客站 ·

本研究解决了在数据分析中概念性任务缺乏智能支持的问题。我们提出了一种基于有序节点-链接树接口的设计，结合AI生成的信息提示和可视化，作为假设探索的共享表征。研究发现，该图表有效地促进了假设生成和回溯，显著减少了用户的认知负担，展示了生成AI在数据分析中的潜力。

“图表就像护栏”：利用互动共享表征构建生成AI辅助假设探索

BriefGPT - AI 论文速递 ·

本研究解决了大型语言模型（LLMs）相关的安全风险方面缺乏高质量人类标注数据集的问题。我们提出了一种全面且适应性强的风险分类法，并使用混合数据生成管道创建了Aegis 2.0数据集，包含34,248个经过注释的人机交互样本。最重要的发现显示，多种轻量级模型在使用Aegis 2.0训练后能够在安全性表现上与主流模型相媲美，为LLMs的安全防护提供了有效解决方案。

Aegis2.0：多样化的人工智能安全数据集和对齐风险分类法，以便为大型语言模型护栏提供支持

BriefGPT - AI 论文速递 ·

RigorLLM 是一种新框架，通过多种方法调节大型语言模型（LLMs）的有害输入和输出，表现出色且韧性强。LoRA 和 OLoRA 方法提高了模型训练效率，支持低参数和内存使用。PrivateLoRA 实现了数据本地性，提供个性化体验。文章还讨论了 LLM 的安全机制和道德使用的重要性。

LoRA-Guard：大型语言模型内容审核的参数高效护栏适应

BriefGPT - AI 论文速递 ·

在Databricks上实施LLM护栏以安全和负责任地部署生成式AI

Databricks ·

在护栏下加速：AI、自动化与消除安全与速度的权衡

GitLab ·