小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
一分钟读论文:《文言文 100% 破解大模型,ICLR2026 曝重大安全漏洞》

研究表明,古典语言如文言文和拉丁语能够绕过主流大模型的安全机制,导致100%成功输出有害内容。这是由于训练数据不平衡和古典语言缺乏安全对齐。此现象提醒AI行业重视多语言安全,重建评估体系,提升跨语言安全能力。

一分钟读论文:《文言文 100% 破解大模型,ICLR2026 曝重大安全漏洞》

Micropaper
Micropaper · 2026-03-21T00:00:00Z

谷歌副总裁Christy Abizaid在“数字时代成长”峰会上指出,生成性AI为学习和创造带来新机遇,但必须确保年轻用户的安全。谷歌采取严格政策,防止有害内容,并进行全面测试,确保AI工具安全适龄,同时促进AI素养和批判性思维的发展。

为年轻人提供更安全的生成性AI路线图

The Keyword
The Keyword · 2026-03-11T16:00:00Z
关于智能与判断不可分割性的探讨:AI对齐中过滤的计算不可行性

本文探讨了大型语言模型(LLMs)在生成有害内容方面的滥用问题,重点分析了防止生成不安全信息的过滤挑战。研究发现,输入提示和输出结果的过滤存在计算困难,尤其在构造对抗性提示时,难以有效区分有害与良性提示。此外,输出过滤在某些情况下也不可行。结论指出,安全性不能仅依赖外部过滤器,AI系统的智能与判断是不可分割的。

关于智能与判断不可分割性的探讨:AI对齐中过滤的计算不可行性

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-03T00:00:00Z
研究人员发现大型语言模型(LLMs)的一项缺陷,使其可靠性降低

麻省理工学院的研究发现,大型语言模型(LLMs)有时会错误依赖语法模式而非领域知识,导致在新任务中表现不佳,甚至可能被恶意利用生成有害内容。研究人员开发了一种基准测试程序,以评估模型对错误关联的依赖,从而帮助开发者在部署前减轻这一问题。

研究人员发现大型语言模型(LLMs)的一项缺陷,使其可靠性降低

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2025-11-26T05:00:00Z
英国的新年龄验证规则容易被绕过

英国的新年龄验证规则容易被绕过,用户可通过VPN轻松规避。这些规则旨在保护儿童,但许多平台仅依赖IP地址进行验证,未能有效阻止青少年访问。青少年使用VPN和广告拦截器等工具,显示出规则的漏洞。

英国的新年龄验证规则容易被绕过

The Verge
The Verge · 2025-07-25T14:28:05Z
使用AI制作的种族主义视频在TikTok上疯传

媒体观察组织Media Matters发现,谷歌的AI视频生成工具Veo 3制作的种族主义视频在TikTok上获得数百万观看,主要针对黑人,且每个视频仅八秒。尽管谷歌和TikTok声称会阻止有害内容,但类似视频仍在YouTube和Instagram上出现。

使用AI制作的种族主义视频在TikTok上疯传

The Verge
The Verge · 2025-07-02T22:01:44Z

本研究提出了一种无监督的实时框架,能够监测大型语言模型(LLMs)生成的有害内容,尤其是后门触发的响应。该框架在有害输出出现前进行预测,准确率达到96%,有效检测有害行为。

安全网:通过建模和监测欺骗行为检测大型语言模型中的有害输出

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z
使用OpenAI API的内容审核边界

OpenAI的内容审核API通过评估用户输入来检测有害内容,提供初步保护。系统读取文本文件中的标记提示,结果包括分类分数和时间戳。不同领域的风险阈值不同,低于0.3为低风险,超过0.7可能触发标记。审核结果以JSON格式存储,便于后续分析和人类审核。

使用OpenAI API的内容审核边界

DEV Community
DEV Community · 2025-05-04T11:54:55Z

本文介绍了MemeBLIP2,一个轻量级的多模态系统,结合图像和文本特征,旨在检测有害表情包内容。实验结果表明,该系统能够有效捕捉细微线索,提升检测能力。

MemeBLIP2: A Novel Lightweight Multimodal System for Detecting Harmful Memes

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-29T00:00:00Z
Amazon Bedrock Guardrails 新增功能:提升生成式 AI 应用程序的安全性

Amazon Bedrock Guardrails推出新功能,帮助企业更有效地实施负责任的人工智能政策。该服务可高达88%的准确率检测有害内容,支持多模态内容过滤,增强隐私保护,确保生成式AI应用的安全合规。

Amazon Bedrock Guardrails 新增功能:提升生成式 AI 应用程序的安全性

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-04-10T03:06:11Z

本研究探讨了大规模语言模型在输出重复、幻觉和有害内容方面的挑战,提出基于第一原理的物理理论,并分析了注意力机制。引入三体注意力模型可提升AI性能,增强其可信度和抵御操控能力。

捕捉AI的关注:重复、幻觉、偏见及其物理学

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-06T00:00:00Z

本研究探讨了开发者在编码任务中依赖大型语言模型(LLM)的潜在危害,并提出了一种评估框架。研究发现,不同LLM在无害性对齐方面存在显著差异,某些模型可能导致有害内容,而较大模型则更有用。这为软件工程任务的对齐策略提供了重要见解。

Warning! The Dangers of Applying Off-the-shelf Large Language Models to Programming Tasks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-02T00:00:00Z
Instagram为学校提供更快速的方式来删除学生的帖子

Instagram推出“学校合作计划”,优先处理学校区举报的有害内容,适用于美国中学和高中,旨在帮助教育者和家长安全使用Instagram。

Instagram为学校提供更快速的方式来删除学生的帖子

The Verge
The Verge · 2025-03-25T16:00:00Z

本研究探讨了大语言模型生成有害内容的滥用问题,指出现有检测技术的不足,并提出了一种鲁棒微调过程,以提升检测器在模糊处理和分布外数据下的稳健性和准确性。

Enhancing the Robustness of Fine-tuned Multilingual Machine-Generated Text Detectors

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z

本研究提出了“严格偏好采样”(HPS)框架,以提高大型语言模型(LLM)与人类偏好的对齐效率和鲁棒性。HPS通过重视受欢迎的响应并拒绝有害内容,显著降低计算成本,并有效减少生成有害内容的风险。

HPS: Hard Preference Sampling for Human Preference Alignment

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z

本研究评估大型语言模型(LLMs)与未满18岁儿童互动的安全性,提出创新评估方法,发现六种先进LLMs在防止儿童接触有害内容方面存在显著漏洞。

儿童与大型语言模型的安全性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-18T00:00:00Z

中国初创公司DeepSeek推出的语言模型DeepSeek R1在性能上与OpenAI的模型相当,但存在严重的安全缺陷,研究表明其对有害提示的攻击成功率高达100%,未能有效阻止有害内容,显示出成本效益与安全性之间的重大折衷。

思科研究发现DeepSeek R1极易受有害提示影响

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-02-03T08:28:01Z

本研究探讨了大语言模型在微调攻击下的安全漏洞,特别是Chain of Thought(CoT)推理模型DeepSeek的表现。研究表明,微调可能操控模型输出,增加产生有害内容的风险,强调了CoT模型在安全性和伦理部署中的重要性。

The Dark Side of Deep Exploration: Fine-tuning Attacks on Safety Alignment of CoT-Enabled Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-03T00:00:00Z

微软起诉一个外国黑客组织,该组织利用被盗API密钥绕过安全控制,生成有害内容并出售访问权限。微软已撤销攻击者的访问权限,查封相关网站,并加强安全措施。

Azure AI被黑客越狱,提供“黑客即服务”

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-01-13T05:42:27Z

本研究提出了一种新颖的扩散攻击方法DiffusionAttacker,针对大型语言模型(LLM)在特定输入下生成有害内容的脆弱性。该方法在攻击成功率、流畅性和多样性方面优于以往技术,具有重要的安全防护潜力。

Diffusion Attacker: Diffusion-Driven Manipulation of LLM Jailbreak Prompts

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-23T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码