SentiPulse与人大高瓴联合推出开源3D数字人框架SentiAvatar,旨在突破数字人行业的表达与动作瓶颈,实现自然流畅的交互。该框架通过高质量数据集和创新模型,提升数字人的情感表达能力,支持实时生成动作与表情,推动数字人向“理解交流”发展。
谷歌推出了Project Genie,这是一个实验性原型,允许用户通过文本和图像实时生成和探索互动世界。该项目旨在推动通用人工智能的发展,目前已向美国的Google AI Ultra订阅者开放。
魔珐科技推出全球首个具身智能3D数字人开放平台“魔珐星云”,实现大模型与实体机器人自然互动,支持实时生成数字人的语音、表情和动作,广泛应用于酒店和政务等场景,推动具身智能发展。
百度蒸汽机实现了AI视频的实时流式生成,用户可以边观看边生成视频,并随时修改剧情,打破了传统生成的时长限制。这一技术突破使AI视频创作更加互动高效,标志着从短片段向长篇叙事的转变。
本研究探讨量子蓄水池计算在时间序列分析中的应用,特别是实时生成《超级马里奥兄弟》关卡。研究者开发了一个新的Roblox游戏,揭示了实时生成中的特定约束,为未来的游戏设计提供了新思路。
腾讯推出混元图像2.0,实现边说边画的实时图像生成,响应速度达到毫秒级。用户可通过文字或手绘输入,系统即时生成图像。该模型具备更大参数和高效图像编解码器,提升了生成效果和真实感。
AI技术正在扩展《我的世界》,玩家可通过简单操作自由探索和创作。Matrix-Game模型支持实时生成高质量场景,提升交互体验,推动3D AIGC发展。
本研究提出了一种基于门控循环单元的变分自编码器,旨在学习机器人操控的潜在配置空间表示。该方法能够实时生成新配置,提升机器人操控的灵活性和适应性。
爱诗科技的PixVerse V3.5视频模型实现接近实时的生成速度,显著提升运动控制和画质,支持多种动画风格,降低影视制作门槛,提供流畅的内容创作体验。
本研究提出了一种新方法,通过在训练中向输入嵌入注入随机噪声,解决了连续自回归模型在生成长序列时的误差积累问题。实验表明,该方法在音乐音频生成中显著提升了性能,为实时和交互式生成应用提供了新可能性。
开源公司Lightricks推出LTX-Video,这是首个实时生成高质量视频的模型。该模型在Nvidia H100上仅需4秒生成5秒的24FPS视频,完全开源,支持低成本本地运行,能够提供自然逼真的效果,减少闪烁和伪影,确保视频细节清晰。未来将发布技术报告。
本研究提出了一种新系统,使用Open AI的Whisper替代传统音频特征提取模型,解决了实时谈话头像生成中的延迟问题。实验结果表明,Whisper提高了处理速度和渲染质量,增强了AI化身在采访者培训中的应用潜力。
AI公司DecartAI与Etched推出了Oasis世界引擎,能够实时生成类似《我的世界》的游戏画面和规则。尽管每秒生成20帧且画质为360p,玩家体验依然自由多变。然而,游戏画面跳跃使部分玩家感到不适,甚至恐惧,显示出AI游戏的快速发展。
AI游戏Oasis实现实时生成,颠覆传统开发,玩家可自由探索个性化世界。该技术基于Transformer架构,具备快速和强互动性,但存在记忆短板。Etched与Decart AI合作,推动AI游戏新形态。
斯坦福吴佳俊团队与MIT合作开发的WonderWorld,能够在10秒内实时生成3D场景,速度比现有方法快近100倍。用户只需上传一张图片,即可交互生成无限扩展的虚拟世界,支持多种场景和视觉风格,显著提升了交互式3D生成的可能性。
新一代生成式AI工具如MusicFX DJ和Music AI Sandbox,旨在简化音乐创作,适合各类用户。通过与音乐行业合作,提供实时生成音乐功能,用户可通过文本提示混合风格,创造独特音景。工具支持高质量音频流和便捷分享,推动音乐创作的未来。
谷歌DeepMind推出的音乐生成模型Lyria驱动的MusicFX DJ和Music AI Sandbox工具,旨在通过AI支持音乐创作。新版本的MusicFX DJ允许用户实时生成音乐,提供直观控制,鼓励创作和实验,用户可以混合多种音乐风格,实时调整音质和节奏,提升音乐创作的可及性和乐趣。
谷歌研究者开发了GameNGen游戏引擎,可以实时生成《毁灭战士》的游戏画面,每秒20帧,标志着人工智能领域的重要进展。该技术可推广到其他视频游戏,实现高质量交互模拟。
完成下面两步后,将自动完成登录并继续当前操作。