小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
社交网站X/Twitter推出付费推广/AI生成标签 未正确勾选标签可能会被封号

社交网站X/Twitter推出新功能,用户在发布内容时可选择标签,如付费推广和AI生成内容,以打击不当内容。违反标记规范可能导致封号,创作者需严格遵守,而普通用户的要求相对宽松。

社交网站X/Twitter推出付费推广/AI生成标签 未正确勾选标签可能会被封号

蓝点网
蓝点网 · 2026-03-01T13:44:36Z
人工智能玩具教孩子如何寻找刀具,参议员们对此感到愤怒

美国参议员对AI儿童玩具的安全性表示担忧,认为这些玩具可能让儿童接触不当内容和隐私风险。研究显示,某些玩具会讨论性话题并引导儿童接触危险物品。参议员要求玩具公司提供安全措施和数据收集的详细信息,强调儿童安全应是优先考虑的事项。

人工智能玩具教孩子如何寻找刀具,参议员们对此感到愤怒

The Verge
The Verge · 2025-12-17T19:03:31Z
消费者安全组织要求对Grok的‘Spicy’模式进行FTC调查

消费者安全组织要求对Elon Musk的Grok进行调查,特别是其新推出的“Imagine”工具。该工具的“Spicy”模式能够生成不当内容,首次测试便生成了Taylor Swift的裸体深度伪造视频。组织担心该模式可能导致未成年人生成色情图像,并呼吁调查其潜在的法律违规行为。

消费者安全组织要求对Grok的‘Spicy’模式进行FTC调查

The Verge
The Verge · 2025-08-14T17:37:01Z

网络安全研究人员揭示了一种名为"回音室"的新型越狱方法,该方法通过间接引用和多步推理诱导大语言模型生成不当内容,成功率超过90%。此发现对大语言模型的安全防护提出了新挑战。

新型"回音室"越狱技术可诱使OpenAI和谷歌大模型生成有害内容

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-06-23T13:28:00Z
Discord因涉嫌违反儿童安全法而被起诉

新泽西州对Discord提起诉讼,指控其未能有效保护儿童安全,称其商业行为“欺骗且不合理”。诉讼指出,Discord在用户年龄验证方面存在疏漏,导致儿童容易接触不当内容。尽管Discord已采取面部识别等安全措施,但仍面临法律挑战。

Discord因涉嫌违反儿童安全法而被起诉

The Verge
The Verge · 2025-04-17T17:04:12Z

本研究提出了一种无训练的安全去噪器,旨在解决扩散模型生成不当内容和侵犯版权的问题。通过修改采样轨迹,利用否定集避免特定数据分布区域,实验证明该方法能够高效生成高质量样本,同时规避不安全内容,展示了其在安全利用扩散模型方面的潜力。

无训练安全去噪器:安全使用扩散模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z
我的AI图像搜索引擎如何学会接受色情内容

Instapics平台旨在帮助用户发现有趣的视觉内容,但随着用户增长,不当内容泛滥。算法优先推荐用户喜好的内容,导致不适宜内容增多。尽管尝试使用AI检测工具,问题依然存在,项目目前已搁置。

我的AI图像搜索引擎如何学会接受色情内容

DEV Community
DEV Community · 2025-02-10T23:53:35Z

本研究提出了一种基于注意力机制的双向GRU混合模型,用于检测乌尔都语中的不当内容。该模型在未使用预训练word2Vec层的情况下,达到了84%的准确率,表明注意力层显著提高了效率。

Application of Attention-Based Bidirectional GRU Hybrid Model in Urdu Inappropriate Content Detection

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-16T00:00:00Z
OpenAI o1 System Card文档阅读

o1系列模型是OpenAI通过强化学习训练的高级语言模型,具备链式推理能力,提升了推理和安全性。模型训练数据经过严格筛选,能有效拒绝不当内容。安全评估显示其在拒绝有害请求和抵御攻击方面表现良好,但仍需关注潜在风险和持续改进。

OpenAI o1 System Card文档阅读

jax - 走在路上
jax - 走在路上 · 2024-12-16T08:16:06Z

本研究提出了一种新颖的攻击手段——定向表示优化越狱(DROJ),旨在解决大语言模型生成不当内容的问题。该方法通过优化提示,实现了100%的关键字攻击成功率,并降低了模型拒绝有害查询的可能性,显示出其潜在影响力。

Prompt-Based Attack Methods: DROJ Attack on Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-14T00:00:00Z
ECCV 2024|牛津大学&港科提出毫秒级文生图安全检测框架Latent Guard

最近的文本到图像生成器面临滥用风险。为此,提出了“潜在保护”方法,通过检测黑名单概念来阻止恶意输入,从而节省计算成本。该框架在多个数据集上验证,表现优异,有效防止不当内容生成。

ECCV 2024|牛津大学&港科提出毫秒级文生图安全检测框架Latent Guard

机器之心
机器之心 · 2024-11-05T02:48:50Z

本文提出了多种方法解决文本到图像生成模型中的不当内容问题,包括安全潜在扩散(SLD)、SneakyPrompt、SDD和SafeGen等。这些方法通过优化图像特征与文本嵌入的融合,有效去除不安全内容,同时保持图像质量。研究表明,这些新技术在去除不当内容方面优于现有方法,确保生成图像符合伦理和安全标准。

SAFREE:无训练且自适应的安全文本生成图像和视频的保护措施

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z
金融通讯指控Roblox助长儿童虐待

一份金融通讯指控Roblox存在儿童性剥削和不当内容,引用多年来的报道。Roblox回应称指控夸大,强调这些是个别现象,并指出平台有7900万活跃用户,42%为13岁以下。Roblox持续更新安全措施以防止恶意活动,并迅速删除不当内容。此事引发了关于平台责任的讨论。

金融通讯指控Roblox助长儿童虐待

The Verge
The Verge · 2024-10-04T15:45:18Z

本文提出了一种名为安全潜在扩散(SLD)的图像噪声过滤方法,旨在解决文本导向图像生成中的偏见和不当内容问题。SLD能够在不影响图像质量和文本对齐的情况下,去除不恰当的图像部分。同时,研究评估了文本到图像扩散模型的鲁棒性,发现新的脆弱性,并提出改进的概念去除方法,以有效抑制不安全图像的生成。

SteerDiff: 向安全的文本到图像扩散模型引导

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-03T00:00:00Z
《最终幻想XVI》制作人希望大家对模组保持冷静

《最终幻想XVI》制作人吉田直树呼吁玩家在PC版游戏中对模组保持克制,尤其是不要制作冒犯或不当的模组。他对网络环境中的热情表示担忧,认为这可能导致不合适内容的出现。尽管希望玩家以良好品味使用模组,但这一请求在网络环境中难以实现。

《最终幻想XVI》制作人希望大家对模组保持冷静

The Verge
The Verge · 2024-09-17T17:10:49Z
TikTok的AI工具意外让用户将希特勒的言论放入付费演员的嘴中

TikTok的AI工具意外发布了一个内部版本,允许用户生成包含不当内容的视频,包括希特勒的言论。CNN发现后生成了多段不当视频。TikTok已关闭该版本并表示已解决技术错误,此事件引发了对数字内容创作滥用的担忧。

TikTok的AI工具意外让用户将希特勒的言论放入付费演员的嘴中

The Verge
The Verge · 2024-06-21T21:02:23Z
全新升级的内容审核工具

OpenAI推出了更快、更准确的内容审核接口,免费提供GPT分类器,能够检测色情、仇恨、暴力和自残等不当内容。该接口经过训练,能快速、准确地评估文本,降低错误输出风险,增强在教育等敏感场合的应用信心。

全新升级的内容审核工具

OpenAI
OpenAI · 2022-08-10T07:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码