InfoQ ·

DeepMind推出Genie 3，一种文本到3D互动世界模型

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

DeepMind推出Genie 3，这是一个能够根据文本提示生成互动3D环境的框架。该系统实时渲染场景，支持物体持久性和一致的物理效果，适用于机器人和具身AI的训练，区别于其他生成AI系统。

🎯

🏷️

微软发布 VibeVoice-ASR：一种统一的语音转文本模型，旨在一次性处理长达 60 分钟的音频
微软推出了VibeVoice-ASR，一个开源的语音转文本模型，支持最长60分钟的音频处理，输出结构化文本，包括“谁”、“何时”、“什么”。该模型允许用户...
一文速通「机器人3D场景表示」发展史
“给中国供应芯片等于卖核弹”？Anthropic CEO达沃斯激进言论震惊全场，谷歌DeepMind掌门人为何温和反击？｜AGI Demis Hassabis Dario Amodei
在2026年达沃斯论坛上，Anthropic CEO阿姆戴伊将向中国出售芯片比作向朝鲜出售核武器，认为风险极大，并批评中国科技未能赶上美国，强调芯片禁令的...
InternVLA-A1——面向场景理解、未来状态生成、动作执行的一体化框架：融合VLM的语义理解与世界模型的未来动态预测
InternVLA-A1。该模型采用统一的 Mixture-of-Transformers 架构，协同三个专家模块，分别负责场景理解、视觉前瞻生成和动作执...
Marshall’s new hub connects to multiple Bluetooth speakers without pairing
Marshall推出了新的音乐流媒体中心Heddon，支持Bluetooth Auracast功能，可同时连接多个扬声器，直接连接Spotify和Tida...
Today only, you can buy the AirPods Pro 3 for less than $200
If you’re considering gifting the AirPods Pro 3 for Valentine’s Day, now’s a ...