本研究提出了一种基于分形几何的合成视频数据集生成方法,旨在解决视频动作识别中的数据短缺问题。该方法模拟真实视频特性,优化预训练过程,显著提升下游任务表现,效果与标准Kinetics预训练相当。
分形几何是通过递归迭代生成图像的数学分支。研究发现,即使只有一个分形图像,也可以进行有效的预训练。通过引入局部扰动交叉熵损失函数,可以训练神经网络对小扰动进行分类。预训练可能只是更好的权重初始化,而不是发现有用视觉概念的必要条件。这对于减少预训练数据集的规模具有重要意义。
完成下面两步后,将自动完成登录并继续当前操作。