MAGI-1是一种新型世界模型,通过自回归预测视频片段序列生成视频。该模型在图像到视频任务中表现优异,具备高时间一致性和可扩展性,适合实时和内存高效部署。
中国移动九天人工智能团队自2013年成立,专注于AI技术研发,拥有800多名研发人员。在文本生成领域,该团队提出了多属性模型融合策略,有效解决属性冲突问题,提升了可控文本生成效果。
本文探讨了基于场景图谱的图像生成技术,提出了多个模型和框架,如SceneGraphGen和ELEGANT,旨在提升图像生成的质量和一致性。研究表明,通过有效的关系建模和信息传递,可以生成高保真的3D场景,并解决空间关系和物体交互的挑战。此外,新提出的评估基准Scene-Bench显著提高了生成模型的准确性,推动了可控图像生成的发展。
本研究通过“分而治之生成”策略,提升了大型语言模型在词汇约束生成中的表现,成功率超过90%,为可控生成提供了新方案。
本研究提出了一种基于扩散的非自回归语言模型Diffusion-LM,能够有效执行复杂的可控生成任务,并在多个细粒度控制任务中表现出色。研究还探讨了数据增强、情感分析及扩散模型在自然语言处理中的应用,展示了其在生成和控制方面的优势。未来的研究将结合Transformers与扩散模型,以提升多模态能力。
新加坡南洋理工大学S-Lab团队提出了一种名为StructLDM的三维数字人生成新范式,通过结构化的高维人体表征、结构化的自动解码器和结构化的隐空间扩散模型实现。该模型能够生成高质量、多样化且视角一致的三维数字人,并支持可控生成与编辑功能。实验结果显示,StructLDM在各项评估中表现出色,具有广泛的应用潜力。
本文提出了一个个性化情感支持框架,结合情感对话模型和可控生成方法,实验结果表明该框架优于其他模型。同时,研究了基于角色的移情对话,提供了新的数据集和模型,提升了对话中的角色一致性和情感反应。
完成下面两步后,将自动完成登录并继续当前操作。