小红花·文摘

通过收集离散声学代码并微调，AudioFormer提出了一种学习音频特征表示的方法。使用神经音频编解码模型生成离散声学代码，并利用它们训练掩码语言模型，获取音频特征表示。实验结果表明，AudioFormer在多个数据集上取得显著提升，甚至超越音频-视觉多模分类模型的性能。