小红花·文摘 - 小红花技术领袖俱乐部

GPT-5系统卡补充：敏感对话

GPT-5系统卡补充：敏感对话

OpenAI ·

探索空白空间：人机协作的数据增强

探索空白空间：人机协作的数据增强

Apple Machine Learning Research ·

本研究提出FALCON方法，通过信息论指导参数选择，增强表示分离，解决大语言模型编码敏感信息的安全隐患。实验表明，FALCON在有效遗忘的同时保持模型实用性，展现出强大的知识恢复抵抗力。

FALCON: Fine-grained Activation Manipulation for Large Language Models via Contrastive Orthogonal Unalignment

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法——目标模型编辑（TME），针对大型语言模型的安全脆弱性，成功绕过安全过滤器，攻击成功率达到84.86%。强调了加强模型安全的重要性。

基于模型编辑的针对安全对齐大型语言模型的越狱攻击

BriefGPT - AI 论文速递 ·

基于AI的应用程序的云安全

基于AI的应用程序的云安全

DEV Community ·

演讲：操控机器：提示注入及其对策

演讲：操控机器：提示注入及其对策

InfoQ ·

香港科技大学USAIL团队提出了新的大语言模型（LLMs）越狱攻击基准JailTrackBench，分析影响模型安全的因素，如攻击者能力、模型规模和安全对齐等。研究表明，模型规模与防御能力不成正比，而安全提示显著增强模型安全性。此外，团队开发了JAILJUDGE评估框架，以系统化评估模型脆弱性并提升防御能力。

什么会影响大模型安全？NeurIPS’24新研究提出大模型越狱攻击新基准与评估体系

量子位 ·

关于我们安全与保障实践的更新

关于我们安全与保障实践的更新

OpenAI ·

Adversarial Robustness Toolbox是一个Python库，旨在增强机器学习模型的安全性和鲁棒性。文章探讨了多种算法和架构设计，以提升模型对抗攻击的防御能力。研究表明，结合真实与生成数据训练可以提高分类器的准确性和鲁棒性，同时优化神经网络的拓扑结构也能显著增强鲁棒性。

真正稳健的训练

BriefGPT - AI 论文速递 ·

OpenAI华人科学家翁荔提出了大模型「外在幻觉」问题，讨论了产生幻觉的原因、检测和抵抗方法。幻觉可能与预训练数据集和微调新知识有关，可以通过检索增强评估和基于归因的微调来减少。翁荔负责ChatGPT的开发和模型安全。

OpenAI翁荔提出大模型「外在幻觉」：万字blog详解抵抗办法、产幻原因和检测方式

量子位 ·

随着人工智能技术的发展，生成式人工智能服务在自然语言处理和图像生成方面具有巨大潜力。全国网络安全标准化技术委员会发布了《网络安全技术生成式人工智能服务安全基本要求（征求意见稿）》，规定了训练数据安全、模型安全和安全措施等基本要求，旨在提高服务安全水平。强调了对未成年人使用生成式人工智能服务的限制。

网安标委印发《网络安全技术生成式人工智能服务安全基本要求（征求意见稿）》

FreeBuf网络安全行业门户 ·

本文提出了一种迭代决策型脆弱水印算法，旨在检测和防止模型在云端或本地转移时被篡改。该算法通过将正常样本转化为脆弱样本进行验证，增强了模型的鲁棒性。研究还介绍了自适应嵌入方法和基于触发集的水印技术，确保模型在多种攻击下的安全性和准确性。

脆弱模型水印用于完整性保护：利用边界波动和敏感样本配对

BriefGPT - AI 论文速递 ·

本文探讨了提示学习在大型语言模型中的应用，提出了提高上下文学习性能的新方法。研究发现，分解提示优于迭代提示，且以英语为中心的模型在多语言任务中表现更佳。此外，研究关注提示窃取攻击及其对模型安全的影响，并验证了提示学习在有毒内容分类和检测中的有效性。

反演上下文学习：通过破坏理解提示

BriefGPT - AI 论文速递 ·

推进人工智能治理

推进人工智能治理

OpenAI ·