爱范儿 ·

OpenAI 用 26 分钟改变世界！免费版 GPT-4 来了，视频语音交互快进到科幻片

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

OpenAI发布全能模型GPT-4o，具备文本、图片、视频和语音能力，回应音频输入速度快，免费向用户提供。GPT-4o在视觉和音频理解方面表现出色，能生成多种音调和情感，可实时翻译和解读面部情绪。ChatGPT有新UI和桌面应用程序。OpenAI与苹果合作可能提升iPhone体验。

🎯

关键要点

OpenAI发布了全能模型GPT-4o，具备文本、图片、视频和语音能力。
GPT-4o将向所有用户免费提供，并将在未来几周内向ChatGPT Plus推出。
GPT-4o的语音响应时间大幅降低，能在232毫秒内回应音频输入。
GPT-4o在视觉和音频理解方面表现出色，支持实时翻译和情感识别。
ChatGPT的新UI更简洁，并推出了适用于macOS的桌面应用程序。
GPT-4o可以接受文本、音频和图像的组合输入，直接生成多种媒介输出。
GPT-4o在非英语语言文本上有显著改进，API速度更快且价格便宜50%。
ChatGPT能够实时翻译和解读人类的面部情绪。
OpenAI的目标是实现与AI的自然交流，类似于电影《她》中的AI助手。
与苹果的合作可能会提升iPhone的用户体验，未来可能会推出新的AI功能。

❓

延伸问答

GPT-4o有哪些主要功能？

GPT-4o具备文本、图片、视频和语音能力，支持实时翻译和情感识别，能够接受多种输入并生成相应输出。

GPT-4o的响应时间有多快？

GPT-4o能在232毫秒内回应音频输入，平均响应时间为320毫秒，接近人类对话的反应时间。

GPT-4o的免费使用政策是什么？

GPT-4o将向所有用户免费提供，并将在未来几周内向ChatGPT Plus推出。

OpenAI与苹果的合作可能带来什么影响？

与苹果的合作可能提升iPhone的用户体验，未来可能推出新的AI功能，改变用户与设备的交互方式。

GPT-4o在非英语语言处理上有什么改进？

GPT-4o在非英语语言文本上有显著改进，能够更快速且便宜地处理这些文本。

ChatGPT的新UI有什么变化？

ChatGPT的新UI更简洁，并推出了适用于macOS的桌面应用程序，Windows版本将在今年晚些时候推出。

🏷️

标签

GPT-4o OpenAI gpt 全能模型苹果合作音频输入

➡️

继续阅读

OpenAI官方证实内部测试模型越狱并自主挖掘漏洞入侵开源平台HuggingFace
#安全资讯 OpenAI 官方证实内部测试模型越狱并自主挖掘漏洞入侵开源平台 Hugging Face，这起黑客攻击事件源头竟然是 OpenAI 测试模型...
XMOS推出搭载先进AI语音处理的VocalFusion XVF3620
XMOS 发布了新一代语音处理器 VocalFusion XVF3620，它将 AI 降噪技术与完整的片上语音处理流程相结合，即使在嘈杂、混响和动态环境中...
Getty Images扩大与Goalhanger的合作关系，加大对视频优先叙事方式的投资
视觉内容创作和市场 Getty Images 和独立播客制作商 Goalhanger 宣布扩大内容合作关系，以支持 Goalhanger 在其节目组合中不...
视频问诊延迟来自哪里：采集、编码、传输、渲染逐段拆解
视频问诊时画面卡住、声音和口型对不上，这些场景线上问诊的用户多少都遇到过。很多人第一反应是”网太差了”，实际上网络只是延迟链条上的一环。这篇把延迟从采集到渲...
Big Blue Marble 为云视频工具包添加了 C2PA 验证功能
Big Blue Marble 宣布已加入 C2PA 合规列表，该公司可以通过其云视频工具包（Cloud Video Kit）为视频内容生成有效的内容凭证...
OpenAI says it accidentally hacked Hugging Face with a new AI system
OpenAI says its AI models mistakenly breached open-source AI platform Hugging...