小红花·文摘

本文介绍了一种基于多模态扩散模型的音视频生成方法，利用耦合自编码器和随机平移注意力块实现音视频帧的生成与对齐。研究表明，该模型在生成质量和对齐性能上优于现有技术，具有良好的应用潜力。

BriefGPT - AI 论文速递 ·

本文介绍了多模态扩散模型在音视频生成、深度图生成和图像编辑等方面的应用，提出了随机平移注意力块、UAMD-Net和IDM-VTON等新方法，以提升多模态数据处理的鲁棒性和生成质量。

BriefGPT - AI 论文速递 ·