超越FVD:视频生成质量的增强评估指标
原文中文,约300字,阅读约需1分钟。发表于: 。本文针对视频生成评价中普遍使用的Fréchet视频距离(FVD)指标的局限性进行了探讨,指出了其在非高斯特征空间、对时间失真的敏感性不足及所需样本量 impracticality等问题。研究提出了基于联合嵌入预测架构的JEPA嵌入距离(JEDi),其实验结果表明该指标相比FVD在样本利用率和与人工评价一致性上均有显著提升。
研究发现,Fréchet Video Distance(FVD)在评估视频生成模型时更偏向于单帧质量,而对时间变化不敏感。这种偏向源于使用监督视频分类器提取的特征。通过使用自监督视频模型提取特征,可以减少这种偏向。研究还通过验证假设重新审视了一些实际例子。