量子位 ·

“计算机视觉被GPT-4o终结了”（狗头）

💡 原文中文，约1300字，阅读约需4分钟。

📝

内容提要

GPT-4o的多模态图像生成技术正在变革计算机视觉领域，能够快速生成多种图像和深度图，影响自动驾驶和3D渲染。尽管有观点认为这些功能可通过其他工具实现，但GPT-4o的基础模型规模扩展仍令人惊讶。

🎯

关键要点

GPT-4o的多模态图像生成技术正在变革计算机视觉领域。
GPT-4o能够快速生成多种图像和深度图，影响自动驾驶和3D渲染。
GPT-4o的图像生成技术是自回归模型，与DALL·E的扩散模型不同。
GPT-4o可以生成PBR材质、纹理和法线贴图等。
有人认为这些功能可以通过其他工具实现，但GPT-4o的基础模型规模扩展令人惊讶。
GPT-4o的图像生成过程可能是多尺度自回归的组合，先生成粗略图像再填充细节。
OpenAI尚未公布GPT-4o图像生成的具体技术细节。

🏷️

继续阅读

认知的远点
这篇科幻小说探讨了大型语言模型（LLM）作为工具的本质，强调人类探求“为什么知道”的重要性。在短视频时代，人类难以创造新语言，文字并非唯一的表达方式。通过...
OpenAI GPT-5.4发布，AI迎来就业报告，Anthropic在美国禁令后激增
Anthropic的新研究提出了“观察到的曝光”指标，结合理论LLM能力与实际使用数据。结果显示，AI尚未达到理论能力，实际任务覆盖率远低于可行范围。程序...
[更新] Codex使用GPT-5.4支持1M上下文超过272K将按照2X计算倍率
OpenAI推出新模型GPT-5.4，支持Codex，最大上下文窗口为1M。开发者可启用快速模式，速度提升1.5倍，但配额按2倍计算。OpenAI提供双倍...
刚刚，奥特曼砸场发布 GPT-5.4！网友：一句 Hi 烧掉 80 美元
OpenAI发布的GPT-5.4整合了编程、推理和计算机操控等功能，显著提升了知识工作和网页搜索能力。其准确性和编程能力大幅提高，支持百万Token上下文...
布鲁斯·莫姆贾恩：新演讲
我一直想做关于预写日志（WAL）的演讲，随着Postgres对WAL功能的依赖增加，演讲内容逐渐丰富，最终形成了103张幻灯片。
NanoClaw可以将每个AI代理放入自己的Docker容器中，以应对OpenClaw的安全问题
机器人访问WhatsApp面临挑战。大多数OpenClaw用户使用WhatsApp，但没有商业账户无法创建新用户。WhatsApp连接依赖于Baileys...

“计算机视觉被GPT-4o终结了”（狗头）

内容提要

关键要点

标签

继续阅读