小红花·文摘

AI SDK 7

Vercel News ·

撸猫撸出SOTA！3个00后2个月，造出史上最快流式音视频社交模型

量子位 ·

Dataland是全球首个人工智能艺术博物馆，将于6月20日开放。由Refik Anadol创办，结合Google技术，展现实时生成的艺术作品。首展“机器梦：雨林”利用大型自然模型，将复杂环境数据转化为互动体验。

推动全球首个人工智能艺术博物馆

The Keyword ·

4步出声，单卡0.24秒！Noiz AI联合港科大清华，开源音频生成大模型

量子位 ·

SentiPulse携手人大高瓴：开源交互式3D数字人框架SentiAvatar，领跑行业主流模型

量子位 ·

谷歌推出了Project Genie，这是一个实验性原型，允许用户通过文本和图像实时生成和探索互动世界。该项目旨在推动通用人工智能的发展，目前已向美国的Google AI Ultra订阅者开放。

项目精灵：探索无限互动世界的实验

The Keyword ·

魔珐科技推出全球首个具身智能3D数字人开放平台“魔珐星云”，实现大模型与实体机器人自然互动，支持实时生成数字人的语音、表情和动作，广泛应用于酒店和政务等场景，推动具身智能发展。

全球首个具身智能开放平台来了！让大模型长出“身体”，像人一样自然表达交互

量子位 ·

百度蒸汽机实现了AI视频的实时流式生成，用户可以边观看边生成视频，并随时修改剧情，打破了传统生成的时长限制。这一技术突破使AI视频创作更加互动高效，标志着从短片段向长篇叙事的转变。

Sora2不够香了！国产AI视频模型已能边看边生成，生成快还互动佳

量子位 ·

本研究探讨量子蓄水池计算在时间序列分析中的应用，特别是实时生成《超级马里奥兄弟》关卡。研究者开发了一个新的Roblox游戏，揭示了实时生成中的特定约束，为未来的游戏设计提供了新思路。

Level Generation Using Quantum Reservoir Computing

BriefGPT - AI 论文速递 ·

腾讯推出混元图像2.0，实现边说边画的实时图像生成，响应速度达到毫秒级。用户可通过文字或手绘输入，系统即时生成图像。该模型具备更大参数和高效图像编解码器，提升了生成效果和真实感。

鹅厂放大招，混元图像2.0「边说边画」：描述完，图也生成好了

量子位 ·

AI技术正在扩展《我的世界》，玩家可通过简单操作自由探索和创作。Matrix-Game模型支持实时生成高质量场景，提升交互体验，推动3D AIGC发展。

AI无限生成《我的世界》，玩家动动键盘鼠标自主控制！

量子位 ·

本研究提出了一种基于门控循环单元的变分自编码器，旨在学习机器人操控的潜在配置空间表示。该方法能够实时生成新配置，提升机器人操控的灵活性和适应性。

从人类手部到机器人肢体：一种用于远程操作的运动技能体现研究

BriefGPT - AI 论文速递 ·

拿下近3亿元融资后，爱诗上线新模型，AI视频生成速度杀入10秒大关

机器之心 ·

本研究提出了一种新方法，通过在训练中向输入嵌入注入随机噪声，解决了连续自回归模型在生成长序列时的误差积累问题。实验表明，该方法在音乐音频生成中显著提升了性能，为实时和交互式生成应用提供了新可能性。

Continuous Autoregressive Models with Noise Augmentation to Avoid Error Accumulation

BriefGPT - AI 论文速递 ·

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

机器之心 ·

本研究提出了一种新系统，使用Open AI的Whisper替代传统音频特征提取模型，解决了实时谈话头像生成中的延迟问题。实验结果表明，Whisper提高了处理速度和渲染质量，增强了AI化身在采访者培训中的应用潜力。

Comparative Analysis of Audio Feature Extraction for Real-Time Conversational Avatar Synthesis

BriefGPT - AI 论文速递 ·

全AI生成的游戏，到达引发恐怖谷效应的阶段了

游戏研究社 ·

每帧都是AI实时生成的，全球首款AI游戏问世了！

机器之心 ·

斯坦福吴佳俊团队与MIT合作开发的WonderWorld，能够在10秒内实时生成3D场景，速度比现有方法快近100倍。用户只需上传一张图片，即可交互生成无限扩展的虚拟世界，支持多种场景和视觉风格，显著提升了交互式3D生成的可能性。

10秒创造一个世界！吴佳俊团队新作实时交互式3D世界生成

量子位 ·

新一代生成式AI工具如MusicFX DJ和Music AI Sandbox，旨在简化音乐创作，适合各类用户。通过与音乐行业合作，提供实时生成音乐功能，用户可通过文本提示混合风格，创造独特音景。工具支持高质量音频流和便捷分享，推动音乐创作的未来。

新一代生成式AI工具开启音乐创作的新篇章

Google DeepMind Blog ·