蓝点网 ·

OPENAI为ChatGPT推出多模态版本可以语音对话以及识别图像内容

💡 原文中文，约700字，阅读约需2分钟。

📝

内容提要

OPENAI宣布ChatGPT将支持语音对话和图像识别功能，语音由文本转语音模型提供支持，图像识别由多模态GPT-3.5和GPT-4提供支持，这些功能将在几周内推出。同时，OPENAI还推出了图像生成模型DALL-E 3，将在10月份与ChatGPT集成。

🎯

关键要点

OPENAI宣布ChatGPT将支持语音对话功能，仅限于Android和iOS版本。
用户可以上传图片，ChatGPT将进行分析和识别。
语音功能由文本转语音模型支持，能够生成类似人类的音频。
图像识别功能由多模态GPT-3.5和GPT-4提供支持，能够进行像素级分析。
新功能将在几周内推出，首先面向ChatGPT Plus和企业版用户，随后支持免费版用户。
OPENAI还推出了图像生成模型DALL-E 3，将在10月份与ChatGPT集成。

🏷️

继续阅读

ChatGPT K12-Team账号绕过手机验证登录并使用CodeX
本文介绍了如何绕过手机验证登录ChatGPT K12-Team账号并使用CodeX。提供了两种导出ChatGPT Session文件的方法：在线导出和使用...
emoji 也能控制语音生成？Irodori-TTS 基于 RF-DiT 架构的日语 TTS；Eczema and Tinea Skin Disease 数据集：支持医学图像分类与迁移学习
Irodori-TTS是由开发者Aratako于2026年发布的日语语音合成项目，具有高保真音质和零样本声音克隆能力。核心模型Irodori-TTS-50...
Focus-Then-Contact——跟我之前给一工厂设计的插拔策略不谋而合：先ACT引导到目标区域附近，然后残差RL实施最终插入，且插入过程中视觉提供稠密奖励，必要时人工干预
本文介绍了一种名为“Focus-Then-Contact”（FTC）的强化学习方法，旨在提高机器人在接触密集任务中的学习效率。FTC结合了残差强化学习和基...
设计一个不需要你理解的系统
在不确定的世界中，理解可能成为障碍，因此设计一个无需理解的系统更为重要。AI通过强大的算力和自我学习解决问题，例如AlphaGo Zero通过自我对弈发现...
[已开源]将《命令与征服：将军：零点行动》原生移植到 macOS、iPhone、iPad
开发者将2003年游戏《命令与征服：将军：零点行动》移植到Apple Silicon的Mac、iPhone和iPad上，支持战役和挑战模式，并优化了触屏操...
16+8轻断食期间：吃饭时间并不重要，只要在八小时内吃完
研究表明，减肥期间进食时间并不重要，关键在于控制进食时长。格拉纳达大学的实验显示，参与16:8间歇性断食的超重者在一年后体重反弹显著低于对照组。无论早晚进...

内容提要

关键要点

标签

继续阅读