小红花·文摘

社交网站X/Twitter推出付费推广/AI生成标签未正确勾选标签可能会被封号

蓝点网 ·

人工智能玩具教孩子如何寻找刀具，参议员们对此感到愤怒

The Verge ·

消费者安全组织要求对Grok的‘Spicy’模式进行FTC调查

The Verge ·

网络安全研究人员揭示了一种名为"回音室"的新型越狱方法，该方法通过间接引用和多步推理诱导大语言模型生成不当内容，成功率超过90%。此发现对大语言模型的安全防护提出了新挑战。

新型"回音室"越狱技术可诱使OpenAI和谷歌大模型生成有害内容

FreeBuf网络安全行业门户 ·

Discord因涉嫌违反儿童安全法而被起诉

The Verge ·

本研究提出了一种无训练的安全去噪器，旨在解决扩散模型生成不当内容和侵犯版权的问题。通过修改采样轨迹，利用否定集避免特定数据分布区域，实验证明该方法能够高效生成高质量样本，同时规避不安全内容，展示了其在安全利用扩散模型方面的潜力。

无训练安全去噪器：安全使用扩散模型

BriefGPT - AI 论文速递 ·

我的AI图像搜索引擎如何学会接受色情内容

DEV Community ·

本研究提出了一种基于注意力机制的双向GRU混合模型，用于检测乌尔都语中的不当内容。该模型在未使用预训练word2Vec层的情况下，达到了84%的准确率，表明注意力层显著提高了效率。

Application of Attention-Based Bidirectional GRU Hybrid Model in Urdu Inappropriate Content Detection

BriefGPT - AI 论文速递 ·

OpenAI o1 System Card文档阅读

jax - 走在路上 ·

本研究提出了一种新颖的攻击手段——定向表示优化越狱（DROJ），旨在解决大语言模型生成不当内容的问题。该方法通过优化提示，实现了100%的关键字攻击成功率，并降低了模型拒绝有害查询的可能性，显示出其潜在影响力。

Prompt-Based Attack Methods: DROJ Attack on Large Language Models

BriefGPT - AI 论文速递 ·

ECCV 2024｜牛津大学&港科提出毫秒级文生图安全检测框架Latent Guard

机器之心 ·

本文提出了多种方法解决文本到图像生成模型中的不当内容问题，包括安全潜在扩散（SLD）、SneakyPrompt、SDD和SafeGen等。这些方法通过优化图像特征与文本嵌入的融合，有效去除不安全内容，同时保持图像质量。研究表明，这些新技术在去除不当内容方面优于现有方法，确保生成图像符合伦理和安全标准。