小红花·文摘 - 小红花技术领袖俱乐部

知名越狱专家成功对Claude Fable 5模型进行越狱，绕过其安全机制，获取敏感内容。专家使用经典爆破法和创新方法，如Unicode替代和文本分解，进行多次尝试，批评安全机制限制了合法研究的进展。

AI模型越狱专家成功对Claude Fable 5越狱使用经典老式爆破法和创新办法组合越狱

蓝点网 ·

ChatGPT正在使用年龄预测功能来限制未成年人看到的内容

ChatGPT正在使用年龄预测功能来限制未成年人看到的内容

The Verge ·

我们对年龄预测的看法

我们对年龄预测的看法

OpenAI ·

OpenAI的家长控制功能上线了——您需要了解的事项

OpenAI的家长控制功能上线了——您需要了解的事项

The Verge ·

标签数量从 10 万减少到 500 以下：谷歌 AI 如何大幅缩减 LLM 训练数据

标签数量从 10 万减少到 500 以下：谷歌 AI 如何大幅缩减 LLM 训练数据

实时互动网 ·

本研究提出OBLIVIATE框架，旨在解决大语言模型中敏感或有毒内容的记忆问题。该框架通过提取目标数据和应用定制损失函数，有效去除不当内容，同时保持模型的实用性，实验结果表明其具有较强的鲁棒性。

OBLIVIATE: Robustness and Practicality of Machine Forgetting Techniques in Large Language Models

BriefGPT - AI 论文速递 ·

YouTube正在测试模糊缩略图功能以应对‘成人内容’

YouTube正在测试模糊缩略图功能以应对‘成人内容’

The Verge ·

Discord通过身份证和面部扫描验证部分用户的年龄

Discord通过身份证和面部扫描验证部分用户的年龄

The Verge ·

本研究提出了一种创新的低秩适应方法，用于优化大型语言模型中的负偏好，成功去除敏感内容，且在学习稳定性上表现优异。

Atyaephyra for SemEval-2025 Task 4: Low-Rank Negative Preference Optimization

BriefGPT - AI 论文速递 ·

Web缓存欺骗是一种漏洞，攻击者通过诱导用户访问恶意URL，使缓存服务器错误存储敏感动态内容，从而获取这些缓存信息。此漏洞源于缓存服务器与源服务器处理请求的差异，了解缓存机制和规则有助于防范此类攻击。

Web缓存欺骗：潜藏的安全陷阱与应对策略

FreeBuf网络安全行业门户 ·

小红书账户冻结、封禁及恢复指南

小红书账户冻结、封禁及恢复指南

人言兑 ·

居然被 ddos 了

Mereith's Blog ·

Google Messages 正在努力应对当今最烦人的消息垃圾信息

Google Messages 正在努力应对当今最烦人的消息垃圾信息

The Verge ·

X（前身为Twitter）现有新规正式允许成人内容

X（前身为Twitter）现有新规正式允许成人内容

The Verge ·

OpenAI Sora – 文字转视频模型：输入描述性文字，获得，生成长达一分钟的视频

OpenAI Sora – 文字转视频模型：输入描述性文字，获得，生成长达一分钟的视频

小众软件 ·

谷歌计划改进Android屏幕录制功能，允许用户录制单一应用，并选择录制整个屏幕或单一应用以及是否录制音频。谷歌提醒用户录制时可能会涉及敏感内容，建议用户检查和处理隐私内容。

谷歌将更新屏幕录制功能允许用户选择仅对某个单一应用进行录制

蓝点网 ·

聚焦内容密度，而不是广度

聚焦内容密度，而不是广度

joojenZhou 个人网站 ·

顶级科技公司禁止员工使用ChatGPT，因为可能会泄露商业机密；OPENAI宣布修改开发者政策，除非客户明确同意，否则不会保留数据，并实施30天的数据保留政策，超过30天的数据会自动清理，但ChatGPT仍会收集数据，用户不应输入敏感内容。

OPENAI宣布不再拿API用户的数据进行模型训练(但不包括ChatGPT)

蓝点网 ·