小红花·文摘

本文研究了Fréchet Video Distance（FVD）作为评估视频生成模型的指标。通过解耦帧质量和运动质量，发现FVD对时域轴的敏感性较小。研究发现FVD偏向于个别帧的质量，这可以归因于从内容偏向数据集训练的受监督视频分类器提取的特征。使用最近的大规模自监督视频模型提取的特征的FVD对图像质量偏向较小。通过验证假设，重新审视了一些现实世界的例子。