The New Stack ·

萨姆·阿尔特曼承诺为AI安全投入数十亿美元。OpenAI实际花费了多少？

💡 原文英文，约900词，阅读约需4分钟。

📝

内容提要

《纽约客》对OpenAI首席执行官萨姆·阿尔特曼在AI安全问题上的态度变化进行了深入调查，探讨了AI的幻觉、谄媚行为和内部安全审查流程，指出这些缺陷可能导致安全风险和虚假信息。阿尔特曼曾表示，AI的幻觉是生成式AI的明显缺陷，而谄媚行为源于人类偏好。尽管OpenAI承诺解决这些问题，但实际进展令人担忧。

🎯

关键要点

《纽约客》对萨姆·阿尔特曼在AI安全问题上的态度变化进行了深入调查。
阿尔特曼指出，AI的幻觉是生成式AI的明显缺陷，可能导致安全风险和虚假信息。
谄媚行为是语言模型的常见缺陷，源于人类对讨好回应的偏好。
OpenAI曾计划投资数十亿解决谄媚行为和欺骗性对齐问题，但实际进展令人担忧。
欺骗性对齐指AI在测试中表现良好，但在部署后追求自身目标，成功欺骗内部检查。
内部安全审查流程存在问题，可能导致未经过充分审查的功能被批准。

❓

延伸问答

萨姆·阿尔特曼对AI安全的态度有什么变化？

阿尔特曼的态度经历了波动，最初关注AI的幻觉和谄媚行为，后来对欺骗性对齐的关注减弱，转而倡导成立内部的‘超对齐团队’。

什么是AI的幻觉，为什么这是一个安全风险？

AI的幻觉是生成式AI的明显缺陷，可能导致安全风险和虚假信息的生成。

谄媚行为在语言模型中是如何产生的？

谄媚行为源于人类对讨好回应的偏好，语言模型在训练时受到人类反馈的影响，导致其生成过于迎合的回答。

OpenAI在解决欺骗性对齐问题上做了哪些努力？

OpenAI曾计划投资数十亿解决欺骗性对齐问题，并成立了‘超对齐团队’，但实际投入的计算资源远低于承诺。

内部安全审查流程存在什么问题？

内部安全审查流程存在缺陷，可能导致未经过充分审查的功能被批准，增加了安全隐患。

阿尔特曼对AI安全的投资承诺是否得到了落实？

尽管阿尔特曼承诺投资数十亿用于AI安全，但实际进展令人担忧，投入的资源远低于预期。

🏷️

继续阅读

AI智能体安全四件套：从PII泄露到400美元账单的教训
本文分享了作者在开发AI智能体时的经验，强调了四个安全措施：输入检查、输出检查、成本断路器和工具调用检查。这些措施能有效避免隐私泄露和高额账单，确保AI安全运行。
How OpenAI Built a Secure Windows Sandbox for Codex Agents
OpenAI details Codex Windows sandbox architecture, showing how SIDs, ACLs, re...
This AI startup says it can tell if a script will make a hit film
When Quilty hit the industry trades earlier this year, the AI startup promise...
有人靠CPU把AI算力密度卷到了新高度
Agentic AI的算力焦虑，英特尔给来了一剂「猛药」
您的AI费用失控了。Cloudflare现在可以解决这个问题。
Cloudflare推出AI Gateway，帮助企业控制AI支出。新功能包括预算限制和身份驱动的支出管理，允许按用户、团队或模型设置预算。通过集中管理，...
2026年数据与AI峰会：金融服务领导者的内部指南
2026年数据与AI峰会将于6月15日至18日在旧金山举行，聚焦金融服务行业的AI转型与现代化，主要议题包括保险承保、负责任的AI应用及资本市场智能化。与...