💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该论文介绍了Dual-Stream Diffusion Net(DSDN)模型,一种双流扩散网络,通过编码器将视频内容编码为内容特征和动作特征,并使用增量学习模块进行更新。使用双流转换交互模块实现信息交互和对齐,引入运动合成器简化运动信息操作。
🎯
关键要点
- 该论文提出了Dual-Stream Diffusion Net(DSDN)模型,属于双流扩散网络。
- 视频内容通过编码器编码为内容特征和动作特征,并使用增量学习模块进行更新。
- 前向扩散过程采用了Hierarchical Text-Conditional Image Generation with CLIP Latents的方法,而非DDPM。
- 设计了双流转换交互模块,通过交叉注意力实现内容和运动的对齐与信息交互。
- 引入运动合成器以简化运动信息的操作。
➡️