小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
基于Mux Robots的一键内容审核仪表板

用户生成内容网站需要内容审核。本文介绍了一种一键内容审核仪表板,利用Mux Robots API进行后台审核。审核员可以通过不同的API获取内容审核的触发原因、视频摘要和标签,并提出是非问题以获取快速反馈。该仪表板可与应用程序集成,通过Webhook与后端通信,便于管理上传内容,旨在简化内容审核流程。

基于Mux Robots的一键内容审核仪表板

Mux Blog - Video technology and more
Mux Blog - Video technology and more · 2026-04-28T21:45:34Z
Grok的性别深度伪造几乎使其在苹果App Store中被禁。差一点。

苹果公司威胁将Elon Musk的AI应用Grok从App Store中移除,原因是未能有效控制非自愿性别深度伪造内容。尽管Grok声称已加强内容审核,但仍存在生成性别化深度伪造的能力。苹果要求开发者改善内容管理,否则可能面临下架。

Grok的性别深度伪造几乎使其在苹果App Store中被禁。差一点。

The Verge
The Verge · 2026-04-15T10:55:22Z

电子前沿基金会(EFF)宣布退出社交平台X,因其影响力下降且未能满足内容审核透明的要求。EFF将继续在其他平台上维护数字权利,强调适应平台变化的重要性。

2026 04 11 HackerNews

介绍 on SuperTechFans
介绍 on SuperTechFans · 2026-04-10T23:57:38Z
自动化审核错误让Tumblr用户感到恐慌

Tumblr因自动化系统错误,周三禁止了多个用户账户,尤其是一些自认跨性别女性的用户。虽然Tumblr确认部分禁令是错误的并已恢复账户,但用户对平台的内容审核问题表示担忧。此事件发生在Tumblr撤回一项有争议的转发系统更改后,引发了用户的不满。

自动化审核错误让Tumblr用户感到恐慌

The Verge
The Verge · 2026-03-20T22:00:34Z

谷歌推出了Gemini 3.1 Flash-Lite,这是其最快、最具成本效益的AI模型,适用于高频开发工作。该模型的服务价格为每百万输入令牌0.25美元和输出令牌1.50美元,速度比2.5 Flash快2.5倍,适合翻译和内容审核等任务。早期开发者在AI Studio和Vertex AI上使用该模型,反馈其高效和推理能力。

Gemini 3.1 Flash-Lite:为大规模智能而生

Google DeepMind Blog
Google DeepMind Blog · 2026-03-03T16:35:55Z
Persona Vectors:语言模型中角色特征的监控与调控

本文介绍了通过提取大语言模型中的人格特质向量来监控和控制模型行为的方法。该方法在内容审核和安全对齐方面具有重要应用价值,研究展示了如何自动提取人格向量,并在模型推理和微调中进行干预,以防止人格漂移和筛选训练数据。

Persona Vectors:语言模型中角色特征的监控与调控

实时互动网
实时互动网 · 2026-02-03T03:26:36Z
特朗普政府禁止前欧盟官员及反虚假信息和仇恨研究者入境美国

特朗普政府对五名与内容审核相关的外国人士实施制裁,包括前欧盟专员蒂埃里·布雷顿和反仇恨研究者伊姆兰·阿赫迈德,旨在回应对美国社交平台内容管理的干预,特别是针对在线仇恨言论的研究。国务卿表示将扩大制裁名单,若其他外国行为者不改变立场。

特朗普政府禁止前欧盟官员及反虚假信息和仇恨研究者入境美国

The Verge
The Verge · 2025-12-24T00:11:40Z
MAF快速入门(6)混合编排工作流

本文介绍了Executor与Agent的混合使用,重点讲解了内容审核工作流案例。通过结合这两者,实现数据验证与AI智能决策,确保内容安全,最终能够检测提示词越狱并发送警报。

MAF快速入门(6)混合编排工作流

dotNET跨平台
dotNET跨平台 · 2025-12-10T23:26:37Z
特朗普政府可能会拒绝向曾从事内容审核工作的人员发放H-1B签证,报道称

特朗普政府要求美国领事馆在审核H1-B签证申请时,考虑申请者是否参与过内容审核或限制言论自由的工作经历。这一政策旨在排查与社交媒体或金融服务公司相关的经历,尤其是涉及压制受保护表达的情况,引发了对言论自由的担忧,批评者认为此政策不合理且违宪。

特朗普政府可能会拒绝向曾从事内容审核工作的人员发放H-1B签证,报道称

The Verge
The Verge · 2025-12-04T19:30:38Z

本文介绍了如何在Discourse论坛中配置AI功能,包括启用AI插件、设置LLM和Embedding模型,以实现翻译和内容审核,提升社区管理效率。用户可通过硅基流动API免费获取资源,支持多语言自动翻译和审核。

Discourse AI 配置教程,使用硅基流动API,免费开启AI功能

Zeruns's Blog
Zeruns's Blog · 2025-10-31T08:03:00Z
OpenAI的GPT-OSS-Safeguard-20B现已在Vercel AI Gateway上提供

OpenAI发布了开源模型GPT-OSS-Safeguard-20B,供开发者进行内容审核。通过Vercel的AI Gateway,无需额外账户即可访问,支持统一API调用和性能优化。

OpenAI的GPT-OSS-Safeguard-20B现已在Vercel AI Gateway上提供

Vercel News
Vercel News · 2025-10-29T13:00:00Z
介绍 @mux/supabase,因为每个应用都需要数据库

Mux集成需要数据库,@mux/supabase提供开源Postgres平台,支持视频API和多种功能。通过Supabase设置,可以创建mux模式,管理视频资产和实时处理工作流,如内容审核,简化视频应用开发,支持AI工作流和数据同步。

介绍 @mux/supabase,因为每个应用都需要数据库

Mux Blog - Video technology and more
Mux Blog - Video technology and more · 2025-10-13T21:40:49Z
从误判到精准:游戏社区 AI 审核的工程化实践

本文介绍了一种针对游戏社区内容审核的AI方案,结合提示词工程和ReAct框架,审核准确率提升至81%。该方案有效解决了长文本审核、语言多样性和灰色语境误判等问题,确保系统在高并发场景下稳定运行,并具备可追溯性和快速迭代能力。

从误判到精准:游戏社区 AI 审核的工程化实践

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-10-10T01:50:49Z

研究团队提出了Token-Aware Editing (TAE)方法,使大模型在TruthfulQA任务上的真实性指标提升25.8%。该方法通过token级编辑,无需训练,适用于对话系统和内容审核,克服了传统方法的局限性,实现了更精细的对齐干预。实验结果表明,TAE在真实性、有害性和公平性等方面显著优于现有方法。

大模型“精细化”对齐,真实性提升25.8%刷新SOTA!token级精准编辑,无需训练即插即用

量子位
量子位 · 2025-09-27T04:58:47Z
YouTube将允许传播新冠虚假信息的创作者重新回到平台

谷歌宣布将调整内容审核政策,允许因传播新冠和选举虚假信息而被禁的YouTube频道恢复。Alphabet律师表示,拜登政府曾施压删除未违反政策的用户内容。YouTube将停止使用第三方事实核查,并承诺支持保守派声音。众议员吉姆·乔丹对此表示欢迎,称这是反对审查的胜利。

YouTube将允许传播新冠虚假信息的创作者重新回到平台

The Verge
The Verge · 2025-09-23T23:43:40Z
SafetyKit利用OpenAI最强大的模型扩展风险代理

SafetyKit利用多模态AI代理,帮助市场、支付平台和金融科技公司检测欺诈和违规行为,准确率超过95%。其代理基于GPT-5和GPT-4.1,自动化内容审核,保护用户并遵循复杂政策。系统日均处理超过160亿个令牌,持续提升性能,助力客户应对新兴风险。

SafetyKit利用OpenAI最强大的模型扩展风险代理

OpenAI
OpenAI · 2025-09-09T10:00:00Z
微软官方账号发布的Surface平板照片使用iPadOS系统 显然是拼接的图片

微软Surface平板宣传海报中使用了拼凑的iPadOS截图,尽管社区已指出错误,海报仍未被删除,显示出内容审核的疏忽。

微软官方账号发布的Surface平板照片使用iPadOS系统 显然是拼接的图片

蓝点网
蓝点网 · 2025-09-08T03:00:55Z
Roblox 暂停中东地区的游戏内聊天功能

Roblox开发商与中东电信监管机构达成协议,暂停该地区的游戏内聊天功能,并加强阿拉伯语内容审核,以提升儿童安全,回应对儿童保护的关注,特别是游戏中的诱骗风险。

Roblox 暂停中东地区的游戏内聊天功能

实时互动网
实时互动网 · 2025-09-05T03:39:18Z
使用AI防火墙阻止针对您的大型语言模型(LLM)端点的安全提示

安全团队正在应对AI应用的新攻击面。Cloudflare推出了集成内容审核功能,以保护大型语言模型(LLM)免受恶意提示和数据泄露。该功能实时检测和阻止有害内容,确保用户信任和品牌完整性。

使用AI防火墙阻止针对您的大型语言模型(LLM)端点的安全提示

The Cloudflare Blog
The Cloudflare Blog · 2025-08-26T14:00:00Z
提示词注入:近期大模型安全漏洞案例剖析

随着大模型技术的普及,提示词注入导致的数据泄露事件频发,给数据安全带来挑战。攻击者利用社工手段诱导AI泄露敏感信息,特别是在AI与第三方应用集成时,权限配置不当可能导致信息泄露。近期事件显示AI模型的内容审核系统存在漏洞,需加强防护措施,如严格输入输出验证、建立信任边界和用户授权机制,以防止数据泄露。

提示词注入:近期大模型安全漏洞案例剖析

浦明的博客
浦明的博客 · 2025-08-25T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码