谷歌发布了Gemma 4 12B多模态模型,支持文本、图片、视频和音频输入,能够在仅16GB内存的消费级设备上运行。该模型采用无编码器架构,降低延迟并简化输入处理,智能化程度接近Gemma 26B版。开发者可在多个平台体验和下载该模型。
Gemma 4 12B是最新的多模态智能模型,专为笔记本电脑设计,具备强大的推理能力和音频输入。它采用无编码架构,减少延迟和内存使用,支持在16GB内存的设备上本地运行。该模型已获得150百万次下载,开发者可利用其功能构建各种应用。
少数派与飞傲联合举办了「BEATBOX CD 机盖板设计大赛」,鼓励用户参与设计。获奖作品包括复古盖板等。BEATBOX 机身支持可更换盖板,兼容多种音频输入,具备蓝牙和FM功能,预售将于2026年5月21日开启,限量发售。
OpenAI发布了GPT-4o模型,可接受任意组合的文本、音频和图像输入,并生成相应的输出。GPT-4o在音频输入的响应时间上表现出色,与人类响应时间相似。它在英语文本和代码上的性能与GPT-4 Turbo相当,而在非英语文本上性能显著提高。GPT-4o在视觉和音频理解方面表现出色。GPT-4o API比GPT-4 Turbo快两倍,价格降低了50%。ChatGPT有了新的UI和桌面应用程序。GPT-4o对所有用户免费开放。
OpenAI发布全能模型GPT-4o,具备文本、图片、视频和语音能力,回应音频输入速度快,免费向用户提供。GPT-4o在视觉和音频理解方面表现出色,能生成多种音调和情感,可实时翻译和解读面部情绪。ChatGPT有新UI和桌面应用程序。OpenAI与苹果合作可能提升iPhone体验。
该研究提出了一种新方法,利用音频输入生成高质量的3D说话人头部动画,具有一致性、可靠性和不需要手动注释等优点。同时,利用面部传动部位上的控制点描述语音相关的运动。
完成下面两步后,将自动完成登录并继续当前操作。