小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
社交网站X/Twitter推出付费推广/AI生成标签 未正确勾选标签可能会被封号

社交网站X/Twitter推出新功能,用户在发布内容时可选择标签,如付费推广和AI生成内容,以打击不当内容。违反标记规范可能导致封号,创作者需严格遵守,而普通用户的要求相对宽松。

社交网站X/Twitter推出付费推广/AI生成标签 未正确勾选标签可能会被封号

蓝点网
蓝点网 · 2026-03-01T13:44:36Z
人工智能玩具教孩子如何寻找刀具,参议员们对此感到愤怒

美国参议员对AI儿童玩具的安全性表示担忧,认为这些玩具可能让儿童接触不当内容和隐私风险。研究显示,某些玩具会讨论性话题并引导儿童接触危险物品。参议员要求玩具公司提供安全措施和数据收集的详细信息,强调儿童安全应是优先考虑的事项。

人工智能玩具教孩子如何寻找刀具,参议员们对此感到愤怒

The Verge
The Verge · 2025-12-17T19:03:31Z
消费者安全组织要求对Grok的‘Spicy’模式进行FTC调查

消费者安全组织要求对Elon Musk的Grok进行调查,特别是其新推出的“Imagine”工具。该工具的“Spicy”模式能够生成不当内容,首次测试便生成了Taylor Swift的裸体深度伪造视频。组织担心该模式可能导致未成年人生成色情图像,并呼吁调查其潜在的法律违规行为。

消费者安全组织要求对Grok的‘Spicy’模式进行FTC调查

The Verge
The Verge · 2025-08-14T17:37:01Z

网络安全研究人员揭示了一种名为"回音室"的新型越狱方法,该方法通过间接引用和多步推理诱导大语言模型生成不当内容,成功率超过90%。此发现对大语言模型的安全防护提出了新挑战。

新型"回音室"越狱技术可诱使OpenAI和谷歌大模型生成有害内容

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-06-23T13:28:00Z
Discord因涉嫌违反儿童安全法而被起诉

新泽西州对Discord提起诉讼,指控其未能有效保护儿童安全,称其商业行为“欺骗且不合理”。诉讼指出,Discord在用户年龄验证方面存在疏漏,导致儿童容易接触不当内容。尽管Discord已采取面部识别等安全措施,但仍面临法律挑战。

Discord因涉嫌违反儿童安全法而被起诉

The Verge
The Verge · 2025-04-17T17:04:12Z

本研究提出了一种无训练的安全去噪器,旨在解决扩散模型生成不当内容和侵犯版权的问题。通过修改采样轨迹,利用否定集避免特定数据分布区域,实验证明该方法能够高效生成高质量样本,同时规避不安全内容,展示了其在安全利用扩散模型方面的潜力。

无训练安全去噪器:安全使用扩散模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z
我的AI图像搜索引擎如何学会接受色情内容

Instapics平台旨在帮助用户发现有趣的视觉内容,但随着用户增长,不当内容泛滥。算法优先推荐用户喜好的内容,导致不适宜内容增多。尽管尝试使用AI检测工具,问题依然存在,项目目前已搁置。

我的AI图像搜索引擎如何学会接受色情内容

DEV Community
DEV Community · 2025-02-10T23:53:35Z

本研究提出了一种基于注意力机制的双向GRU混合模型,用于检测乌尔都语中的不当内容。该模型在未使用预训练word2Vec层的情况下,达到了84%的准确率,表明注意力层显著提高了效率。

Application of Attention-Based Bidirectional GRU Hybrid Model in Urdu Inappropriate Content Detection

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-16T00:00:00Z
OpenAI o1 System Card文档阅读

o1系列模型是OpenAI通过强化学习训练的高级语言模型,具备链式推理能力,提升了推理和安全性。模型训练数据经过严格筛选,能有效拒绝不当内容。安全评估显示其在拒绝有害请求和抵御攻击方面表现良好,但仍需关注潜在风险和持续改进。

OpenAI o1 System Card文档阅读

jax - 走在路上
jax - 走在路上 · 2024-12-16T08:16:06Z

本研究提出了一种新颖的攻击手段——定向表示优化越狱(DROJ),旨在解决大语言模型生成不当内容的问题。该方法通过优化提示,实现了100%的关键字攻击成功率,并降低了模型拒绝有害查询的可能性,显示出其潜在影响力。

Prompt-Based Attack Methods: DROJ Attack on Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-14T00:00:00Z
ECCV 2024|牛津大学&港科提出毫秒级文生图安全检测框架Latent Guard

最近的文本到图像生成器面临滥用风险。为此,提出了“潜在保护”方法,通过检测黑名单概念来阻止恶意输入,从而节省计算成本。该框架在多个数据集上验证,表现优异,有效防止不当内容生成。

ECCV 2024|牛津大学&港科提出毫秒级文生图安全检测框架Latent Guard

机器之心
机器之心 · 2024-11-05T02:48:50Z
Hindenburg Research指控Roblox向投资者谎报用户数量

投资公司Hindenburg Research指控Roblox夸大用户数量,称其将日活跃用户数虚报25%至42%。Roblox被指将替代账户和机器人计入用户数,并未能有效保护儿童,平台上存在不当内容。Roblox股价因此下跌,公司发言人否认问题普遍存在,并表示会更新安全措施。

Hindenburg Research指控Roblox向投资者谎报用户数量

The Verge
The Verge · 2024-10-08T15:17:23Z
金融通讯指控Roblox助长儿童虐待

一份金融通讯指控Roblox存在儿童性剥削和不当内容,引用多年来的报道。Roblox回应称指控夸大,强调这些是个别现象,并指出平台有7900万活跃用户,42%为13岁以下。Roblox持续更新安全措施以防止恶意活动,并迅速删除不当内容。此事引发了关于平台责任的讨论。

金融通讯指控Roblox助长儿童虐待

The Verge
The Verge · 2024-10-04T15:45:18Z
全新升级的内容审核工具

OpenAI推出了更快、更准确的内容审核接口,免费提供GPT分类器,能够检测色情、仇恨、暴力和自残等不当内容。该接口经过训练,能快速、准确地评估文本,降低错误输出风险,增强在教育等敏感场合的应用信心。

全新升级的内容审核工具

OpenAI
OpenAI · 2022-08-10T07:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码