The Verge ·

根据反诽谤联盟，Grok是最反犹太的聊天机器人

💡 原文英文，约1000词，阅读约需4分钟。

📝

内容提要

一项研究显示，xAI的Grok在识别和反制反犹太内容方面表现最差，而Anthropic的Claude表现最佳。所有六个大型语言模型均需改进，Grok在多个类别中的得分低于35，显示出严重的性能不足。

🎯

关键要点

一项研究显示，xAI的Grok在识别和反制反犹太内容方面表现最差。
Anthropic的Claude在报告中表现最佳，但所有模型均需改进。
ADL对六个大型语言模型进行了测试，包括Grok、ChatGPT、Llama、Claude、Gemini和DeepSeek。
研究将聊天机器人按表现从好到坏排名，Claude得分最高，Grok得分最低，差距达到59分。
ADL选择强调表现优秀的AI模型，以展示投资安全措施的可能性，而非集中于表现最差的模型。
ADL的反犹太提示类别包括传统反犹太主义的陈词滥调和阴谋论。
在极端内容类别中，ADL测试了与白人至上主义和动物权利相关的提示。
Claude在反犹太声明的响应中表现最佳，得分为90，而Grok的整体得分为21。
Grok在所有三类提示中得分均低于35，表现持续疲弱。
ADL指出，Grok在多轮对话中的表现差，无法维持上下文，限制了其在聊天机器人或客户服务中的实用性。
Grok在图像分析方面几乎完全失败，可能不适用于视觉内容审核或仇恨言论的识别。
Grok还被用于创建非自愿的深度伪造图像，估计在短时间内生成了180万张女性的性别化图像。

🏷️

继续阅读

搞色色就这么难？OpenAI确认ChatGPT成人模式继续推迟需要做其他工作
OpenAI确认ChatGPT的成人模式将继续推迟，当前专注于优化用户体验。尽管计划在2026年3月前推出，但尚无明确时间表。其他AI聊天机器人对成人话题...
扩展人类判断：Dropbox如何利用大型语言模型提升RAG系统的标注效率
Dropbox通过结合人类标注和大型语言模型（LLMs）生成的标签，提升了文档检索的相关性和标注效率。尽管LLM存在局限性，但人类校准显著改善了RAG系统的性能。
扫地机器人，正式迈入AI时代？
来源 | 伯虎财经（bohuFN）作者 | 林恩近日，石头科技发布年度业绩快报。透过财报，我们看到，智能清洁家电行业正在经历一场深刻的变革。一边是行业增速...
OpenClaw 接入 QQ 机器人：腾讯官方入口，1 分钟扫码即用（详细教程）
腾讯开放了QQ机器人功能，用户可通过扫码快速接入，最多可创建5个机器人。创建过程简单，支持独立聊天和工具调用，QQ机器人有望成为OpenClaw的主要入口。
大疆将支付3万美元给意外黑客入侵7000台Romo机器人吸尘器的男子
大疆已开始修复部分漏洞，但尚不确定是否会支付发现者Sammy Azdoufal的奖励，以及其他漏洞的完全修复时间。
别再把 AI 当聊天框了,OpenCowork 让它真正「会干活」
OpenCowork 是一个开源桌面 AI 工作站，旨在整合 AI 工具以提升团队生产力。它支持本地工作流、团队协作和任务自动化，解决了 AI 在日常工作...

根据反诽谤联盟，Grok是最反犹太的聊天机器人

内容提要

关键要点

标签

继续阅读