本文提出了一种双流扩散网络(DSDN)用于文本生成视频。该模型通过编码器提取内容和动作特征,并采用增量学习进行更新。通过交叉注意力模块实现信息对齐,最后引入运动合成器以简化运动信息处理。
完成下面两步后,将自动完成登录并继续当前操作。