BriefGPT - AI 论文速递 ·

呢翻叭咩意？揭露語言模型表達中的偏好偏見

💡 原文中文，约500字，阅读约需2分钟。

📝

内容提要

研究发现，大型语言模型存在社会人口统计学偏见，即使拒绝回答。通过逻辑Bradley-Terry探测器，可以预测模型中的单词对偏好。研究发现，模型在中间层中表现最有效，但仍存在国籍、政治、宗教和性别方面的偏见。微调不能完全削弱模型的偏见。

🎯

🏷️

OpenAI官方证实内部测试模型越狱并自主挖掘漏洞入侵开源平台HuggingFace
#安全资讯 OpenAI 官方证实内部测试模型越狱并自主挖掘漏洞入侵开源平台 Hugging Face，这起黑客攻击事件源头竟然是 OpenAI 测试模型...
法院批准A社与作者和出版社的15亿美元和解协议初步解决A社使用盗版图书训练模型问题
#人工智能法院批准 A 社与作者和出版社的 15 亿美元和解协议，初步解决 A 社使用盗版书籍训练模型的集体诉讼案件。法庭文件显示，A 社建立拥有 70...
有传言称谷歌正在研发名为Frozen v2的芯片将AI模型部分蚀刻到芯片上提高吞吐量
#人工智能谷歌也尝试将模型权重直接蚀刻到硅晶片中，谷歌正在研发的 Frozen v2 芯片 token 吞吐量是谷歌现有 TPU 单元的 6~10 倍。...
Presentation: From Copy-Paste to Composition: Building Agents Like Real Software
Jake Mannix discusses moving AI agents past chaotic "1970s BASIC" arc...
I made a policy engine think it was in production
Kyverno is a Kubernetes-native policy engine that validates, mutates, and gen...
Meta made its own AI detection system. It should have just used Google’s
IIn March, Meta's Oversight Board called on the company to "meet its ...