小红花·文摘

一分钟读论文：《文言文 100% 破解大模型，ICLR2026 曝重大安全漏洞》

Micropaper ·

谷歌副总裁Christy Abizaid在“数字时代成长”峰会上指出，生成性AI为学习和创造带来新机遇，但必须确保年轻用户的安全。谷歌采取严格政策，防止有害内容，并进行全面测试，确保AI工具安全适龄，同时促进AI素养和批判性思维的发展。

为年轻人提供更安全的生成性AI路线图

The Keyword ·

关于智能与判断不可分割性的探讨：AI对齐中过滤的计算不可行性

Apple Machine Learning Research ·

研究人员发现大型语言模型（LLMs）的一项缺陷，使其可靠性降低

MIT News - Artificial intelligence ·

英国的新年龄验证规则容易被绕过

The Verge ·

使用AI制作的种族主义视频在TikTok上疯传

The Verge ·

本研究提出了一种无监督的实时框架，能够监测大型语言模型（LLMs）生成的有害内容，尤其是后门触发的响应。该框架在有害输出出现前进行预测，准确率达到96%，有效检测有害行为。

安全网：通过建模和监测欺骗行为检测大型语言模型中的有害输出

BriefGPT - AI 论文速递 ·

使用OpenAI API的内容审核边界

DEV Community ·

本文介绍了MemeBLIP2，一个轻量级的多模态系统，结合图像和文本特征，旨在检测有害表情包内容。实验结果表明，该系统能够有效捕捉细微线索，提升检测能力。

MemeBLIP2: A Novel Lightweight Multimodal System for Detecting Harmful Memes

BriefGPT - AI 论文速递 ·

Amazon Bedrock Guardrails 新增功能：提升生成式 AI 应用程序的安全性

亚马逊AWS官方博客 ·

本研究探讨了大规模语言模型在输出重复、幻觉和有害内容方面的挑战，提出基于第一原理的物理理论，并分析了注意力机制。引入三体注意力模型可提升AI性能，增强其可信度和抵御操控能力。

捕捉AI的关注：重复、幻觉、偏见及其物理学

BriefGPT - AI 论文速递 ·

本研究探讨了开发者在编码任务中依赖大型语言模型（LLM）的潜在危害，并提出了一种评估框架。研究发现，不同LLM在无害性对齐方面存在显著差异，某些模型可能导致有害内容，而较大模型则更有用。这为软件工程任务的对齐策略提供了重要见解。

Warning! The Dangers of Applying Off-the-shelf Large Language Models to Programming Tasks

BriefGPT - AI 论文速递 ·

Instagram为学校提供更快速的方式来删除学生的帖子

The Verge ·

本研究探讨了大语言模型生成有害内容的滥用问题，指出现有检测技术的不足，并提出了一种鲁棒微调过程，以提升检测器在模糊处理和分布外数据下的稳健性和准确性。

Enhancing the Robustness of Fine-tuned Multilingual Machine-Generated Text Detectors

BriefGPT - AI 论文速递 ·

本研究提出了“严格偏好采样”（HPS）框架，以提高大型语言模型（LLM）与人类偏好的对齐效率和鲁棒性。HPS通过重视受欢迎的响应并拒绝有害内容，显著降低计算成本，并有效减少生成有害内容的风险。

HPS: Hard Preference Sampling for Human Preference Alignment

BriefGPT - AI 论文速递 ·

本研究评估大型语言模型（LLMs）与未满18岁儿童互动的安全性，提出创新评估方法，发现六种先进LLMs在防止儿童接触有害内容方面存在显著漏洞。

儿童与大型语言模型的安全性

BriefGPT - AI 论文速递 ·

中国初创公司DeepSeek推出的语言模型DeepSeek R1在性能上与OpenAI的模型相当，但存在严重的安全缺陷，研究表明其对有害提示的攻击成功率高达100%，未能有效阻止有害内容，显示出成本效益与安全性之间的重大折衷。

思科研究发现DeepSeek R1极易受有害提示影响

FreeBuf网络安全行业门户 ·

本研究探讨了大语言模型在微调攻击下的安全漏洞，特别是Chain of Thought（CoT）推理模型DeepSeek的表现。研究表明，微调可能操控模型输出，增加产生有害内容的风险，强调了CoT模型在安全性和伦理部署中的重要性。

The Dark Side of Deep Exploration: Fine-tuning Attacks on Safety Alignment of CoT-Enabled Models

BriefGPT - AI 论文速递 ·

微软起诉一个外国黑客组织，该组织利用被盗API密钥绕过安全控制，生成有害内容并出售访问权限。微软已撤销攻击者的访问权限，查封相关网站，并加强安全措施。

Azure AI被黑客越狱，提供“黑客即服务”

FreeBuf网络安全行业门户 ·

本研究提出了一种新颖的扩散攻击方法DiffusionAttacker，针对大型语言模型（LLM）在特定输入下生成有害内容的脆弱性。该方法在攻击成功率、流畅性和多样性方面优于以往技术，具有重要的安全防护潜力。

Diffusion Attacker: Diffusion-Driven Manipulation of LLM Jailbreak Prompts

BriefGPT - AI 论文速递 ·