MAGI-1是一种新型世界模型,通过自回归预测视频片段序列生成视频。该模型在图像到视频任务中表现优异,具备高时间一致性和可扩展性,适合实时和内存高效部署。
中国移动九天人工智能团队自2013年成立,专注于AI技术研发,拥有800多名研发人员。在文本生成领域,该团队提出了多属性模型融合策略,有效解决属性冲突问题,提升了可控文本生成效果。
本文探讨了基于场景图谱的图像生成技术,提出了多个模型和框架,如SceneGraphGen和ELEGANT,旨在提升图像生成的质量和一致性。研究表明,通过有效的关系建模和信息传递,可以生成高保真的3D场景,并解决空间关系和物体交互的挑战。此外,新提出的评估基准Scene-Bench显著提高了生成模型的准确性,推动了可控图像生成的发展。
本研究通过“分而治之生成”策略,提升了大型语言模型在词汇约束生成中的表现,成功率超过90%,为可控生成提供了新方案。
新加坡南洋理工大学S-Lab团队提出了一种名为StructLDM的三维数字人生成新范式,通过结构化的高维人体表征、结构化的自动解码器和结构化的隐空间扩散模型实现。该模型能够生成高质量、多样化且视角一致的三维数字人,并支持可控生成与编辑功能。实验结果显示,StructLDM在各项评估中表现出色,具有广泛的应用潜力。
该研究论文探讨了离散领域中扩散模型的应用,将其作为生成算法的辅助方法,并展示了其在生成文本方面的有效性。潜在扩散模型优于自回归基线,并支持可控的生成。
完成下面两步后,将自动完成登录并继续当前操作。