Fleximo:迈向灵活的文本到人类动作视频生成
📝
内容提要
本研究针对现有的人类动作视频生成方法灵活性不足和控制能力有限的问题,提出了一种仅基于参考图像和自然语言生成动作视频的新框架Fleximo。这一方法通过结合预训练的大规模文本到3D动作模型,提高了视频生成的灵活性,并应用新的标尺方法和骨骼适配器来克服生成过程中的挑战,显著提升了生成视频的质量和准确性。
➡️
本研究针对现有的人类动作视频生成方法灵活性不足和控制能力有限的问题,提出了一种仅基于参考图像和自然语言生成动作视频的新框架Fleximo。这一方法通过结合预训练的大规模文本到3D动作模型,提高了视频生成的灵活性,并应用新的标尺方法和骨骼适配器来克服生成过程中的挑战,显著提升了生成视频的质量和准确性。