通过收集离散声学代码并微调,AudioFormer提出了一种学习音频特征表示的方法。使用神经音频编解码模型生成离散声学代码,并利用它们训练掩码语言模型,获取音频特征表示。实验结果表明,AudioFormer在多个数据集上取得显著提升,甚至超越音频-视觉多模分类模型的性能。
完成下面两步后,将自动完成登录并继续当前操作。