新加坡南洋理工大学S-Lab团队提出了一种名为StructLDM的三维数字人生成新范式,通过结构化的高维人体表征、结构化的自动解码器和结构化的隐空间扩散模型实现。该模型能够生成高质量、多样化且视角一致的三维数字人,并支持可控生成与编辑功能。实验结果显示,StructLDM在各项评估中表现出色,具有广泛的应用潜力。
新加坡南洋理工大学的LMMs-Lab团队与其他机构的研究人员共同开发了一种名为LongVA的长视频模型,能够处理超过千帧的视频数据,并在视频理解榜单和MLVU基准测试中取得了很好的成绩。研究团队通过扩展语言模型的上下文能力,成功将这种能力传递到视觉模态上,无需进行长视频训练。他们还提出了一种名为Visual Needle-In-A-Haystack的基准测试,证明了LongVA在视觉大海捞针测试中的优秀表现。
完成下面两步后,将自动完成登录并继续当前操作。