小红花·文摘

容器的隔离性不如虚拟机，安全性依赖于威胁模型。容器通过namespace、cgroup和seccomp等机制实现隔离，但共享内核存在漏洞风险。User namespace可以降低逃逸影响。gVisor、Kata Containers和Firecracker提供更强的隔离，适用于不同场景。选择方案时需考虑安全需求与性能。

【操作系统百科】容器隔离的真实强度

土法炼钢兴趣小组的博客 ·

清华大学发布的《2026智能体安全研究报告》强调智能体安全的重要性，指出安全威胁包括输入、模型、输出、记忆和执行五大维度。报告提出了系统化的威胁模型和评测框架，并建议建立五层防御体系，最后提供了90天的实施路线图，以帮助企业安全部署智能体。

清华80页报告拆解Agent安全落地路线

FreeBuf网络安全行业门户 ·

人工智能驱动的软件漏洞发现变革：维护者和漏洞发现者需要了解的事项

Cloud Native Computing Foundation ·

保护Vibe：降低AI生成代码的风险

The New Stack ·

本文探讨了大型语言模型（LLM）防御的有效性，提出了一种基于信息的白箱攻击方法，通过中间模型检查点提升攻击效率。研究发现，现有的对齐防御方法存在脆弱性，需在强威胁模型下进行评估。

Alignment Under Pressure: The Necessity of Considering Informed Adversaries When Evaluating Defenses of Large Language Models

BriefGPT - AI 论文速递 ·

本研究分析了自治浏览代理在动态内容和用户数据依赖下的安全漏洞，提出了首个端到端威胁模型，并建议通过输入清理和执行器隔离等方法提升安全性，以防止攻击。

自治浏览代理的潜在安全风险

BriefGPT - AI 论文速递 ·

本研究探讨了机器学习中概念抹除技术的安全漏洞，提出了“有害抹除”威胁模型，并通过后门攻击实例揭示现有抹除算法的脆弱性，指出当前策略存在重大安全隐患。

Erased but Not Forgotten: How Backdoors Affect Concept Erasure

BriefGPT - AI 论文速递 ·

本研究提出了一种MCP网关架构，以解决企业在集成AI代理时面临的安全性不足问题。该架构结合安全原则与自托管策略，旨在保护基础设施免受外部威胁，并提供参考架构和威胁模型映射，以开发更安全的AI集成解决方案。

企业AI集成的简化和安全MCP网关

BriefGPT - AI 论文速递 ·

本研究探讨了生成型人工智能（GenAI）代理在企业环境中的安全挑战，提出了全面的威胁模型，识别了9种主要威胁。文章强调了代理的自主性和复杂性带来的新风险，并提供了ATFAA和SHIELD框架以降低企业风险。

Securing Agentic AI: A Comprehensive Threat Model and Mitigation Framework for Generative AI Agents

BriefGPT - AI 论文速递 ·

当前大型语言模型（LLMs）的隐私审计技术效果有限，依赖基本方法生成无效信号，导致隐私泄漏检测能力不足。本研究开发的新检测信号在多种威胁模型下表现优越，显著提升了隐私保护效果。

大型语言模型的隐私审计

BriefGPT - AI 论文速递 ·

本研究提出了一种统一的威胁模型，系统比较了监狱突破攻击方法。通过评估困惑度和计算预算，结果显示基于离散优化的攻击效果显著优于语言模型攻击，揭示了攻击者利用稀有N-gram突破安全防护的策略。

A Realistic Threat Model for Jailbreaking Large Language Models

BriefGPT - AI 论文速递 ·

本文介绍了联邦学习的威胁模型及主要攻击方法，包括污染攻击和推理攻击。研究提出了多种防御策略，如LearnDefend和FedDefender，以提高系统的鲁棒性和隐私保护。分析了恶意攻击的来源、目标及其影响，强调开发有效防御措施的重要性，以确保联邦学习的安全性和可信性。

对抗环境中的联邦学习：测试平台设计与网络安全中的毒害耐受性

BriefGPT - AI 论文速递 ·

本研究提出了图神经网络的链路窃取攻击，介绍了三个威胁模型和八种攻击方法。实验表明攻击有效，揭示了GNN模型输出的训练图结构信息，证明黑盒条件下可窃取私密数据。

AttackGNN: 使用强化学习在硬件安全中对 GNN 进行红队攻击

BriefGPT - AI 论文速递 ·

本文研究了联合学习中的毒化攻击，分类了威胁模型和攻击形式，并关注非定向毒化攻击及防御机制。实验证明，即使是简单低成本的防护措施，联合学习也很强健。同时，提出了新型的数据和模型毒化攻击，并探究了在简单防御机制下的攻击效果。

面向联邦学习中高效且可验证的恶意攻击恢复

BriefGPT - AI 论文速递 ·

该综述论文全面研究了恶意攻击的联邦学习，分类了攻击来源和目标，并深入分析了其方法和影响。讨论了数据攻击模型、模型攻击数据、模型与模型攻击以及复合攻击等威胁模型，并提出了各种防御策略及其效果、假设和潜在改进方向。研究表明，恶意攻击在联邦学习系统的不同阶段日益增多，影响范围广泛。综述强调了开发稳健、高效和保护隐私的防御措施对于确保联邦学习在实际应用中的安全与可信采纳的重要性。

针对联邦学习的数据不可知模型污染：一种图自编码器方法

BriefGPT - AI 论文速递 ·

该综述论文全面研究了恶意攻击的联邦学习，从新视角对攻击来源和目标进行分类，并深入分析了方法和影响。讨论了威胁模型、防御策略及其效果、假设和潜在改进方向。强调了开发稳健、高效和保护隐私的防御措施对于确保联邦学习的安全与可信采纳的重要性。

联邦学习中的漏洞调查：一种学习算法的视角

BriefGPT - AI 论文速递 ·

最近的研究发现学术界研究的人工智能安全威胁并不总是反映实际使用和安全风险。研究发现现有威胁模型适用，但存在重大差异，需要更多实用的威胁模型。

朝着更实用的人工智能安全威胁模型

BriefGPT - AI 论文速递 ·

该文提出了一种有效的防御方法，通过传输攻击和博弈论的视角，在新的威胁模型下进行评估。该方法在公共模型和多个数据集上进行了评估，并且在最强的传输攻击下相较于最好的对抗训练模型具有明显优势。

防御来自公共模型的转移攻击

BriefGPT - AI 论文速递 ·

该文概述了机器学习中的安全威胁、威胁模型和相关挑战，并使用LeNet和VGGNet对MNIST和GTSRB等基准进行了安全威胁演示。文章提出并解决了一些误差影响较小的攻击方式，并介绍了开发安全措施的相关技术。

平衡透明度和风险：开源机器学习模型的安全与隐私风险

BriefGPT - AI 论文速递 ·