关于 Fréchet 视频距离中的内容偏差

原文约400字,阅读约需1分钟。发表于:

探索 Fréchet Video Distance(一种评估视频生成模型的优秀指标)对每帧质量和时域真实度的偏向程度,并确定其来源;通过解耦帧质量和运动质量,量化 FVD 对时域轴的敏感性,发现 FVD 在大的时域损坏下略微增加;通过精心从不包含运动的大量生成视频中进行采样,显示能够显著减少 FVD 而不改善时域质量;研究表明 FVD 偏向于个别帧的质量;观察到偏向可以归因于从内容偏向数据集训练的受监督视频分类器提取的特征;结果显示使用最近的大规模自监督视频模型提取的特征的 FVD 对图像质量偏向较小;最后,通过验证我们的假设,重新审视了一些现实世界的例子。

本文研究了Fréchet Video Distance(FVD)作为评估视频生成模型的指标。通过解耦帧质量和运动质量,发现FVD对时域轴的敏感性较小。研究发现FVD偏向于个别帧的质量,这可以归因于从内容偏向数据集训练的受监督视频分类器提取的特征。使用最近的大规模自监督视频模型提取的特征的FVD对图像质量偏向较小。通过验证假设,重新审视了一些现实世界的例子。

相关推荐 去reddit讨论