超越FVD:视频生成质量的增强评估指标

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

研究发现,Fréchet Video Distance(FVD)在评估视频生成模型时更偏向于单帧质量,而对时间变化不敏感。这种偏向源于使用监督视频分类器提取的特征。通过使用自监督视频模型提取特征,可以减少这种偏向。研究还通过验证假设重新审视了一些实际例子。

🎯

关键要点

  • Fréchet Video Distance(FVD)评估视频生成模型时偏向于单帧质量,对时间变化不敏感。

  • 这种偏向源于使用监督视频分类器提取的特征。

  • 通过使用自监督视频模型提取特征,可以减少FVD的偏向。

  • 研究通过解耦帧质量和运动质量,量化FVD对时域轴的敏感性。

  • 发现FVD在大的时域损坏下略微增加。

  • 从不包含运动的大量生成视频中采样显示能够显著减少FVD而不改善时域质量。

  • 结果表明,FVD偏向于个别帧的质量。

  • 使用大规模自监督视频模型提取的特征,FVD对图像质量的偏向较小。

  • 研究通过验证假设重新审视了一些现实世界的例子。

➡️

继续阅读