UniMuMo:统一文本、音乐和运动生成
发表于: 。本研究针对缺乏时间同步数据的问题,提出了一种统一的多模态模型UniMuMo,能够处理文本、音乐和运动数据的生成。通过基于节奏模式对未配对的音乐和运动数据进行对齐,该模型实现了三者之间的交叉生成,并在多个生成任务中展示出竞争力的效果。
本研究针对缺乏时间同步数据的问题,提出了一种统一的多模态模型UniMuMo,能够处理文本、音乐和运动数据的生成。通过基于节奏模式对未配对的音乐和运动数据进行对齐,该模型实现了三者之间的交叉生成,并在多个生成任务中展示出竞争力的效果。