来自 SAM 的区域可区分先验的视频帧插值
原文中文,约300字,阅读约需1分钟。发表于: 。该研究介绍了一种利用开放世界分割模型来提高视频帧插值中运动估计准确性的新方法,通过将区域可区别先验表示为空间变化的高斯混合,设计了可以与现有运动估计方法集成的分层区域感知特征融合模块,实验证明该方法能够在各种场景下显著提升视频帧插值性能。
本文介绍了Fine-grained Motion Alignment(FIMA)框架,通过对比学习生成像素级的运动监督,消除时间和空间上的弱对齐,并提高运动特征的时间多样性。FIMA在UCF101、HMDB51和Diving48数据集上取得了最先进或竞争性的结果。