利用 PaSST 和大量音频标题数据集推进基于自然语言的音频检索

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该研究提出了一种基于文本的音频检索系统,使用预训练的文本和频谱图变换器。系统的关键组件是基于自注意力机制的音频编码器和利用附加的人工生成和合成数据集进行预训练。该系统在2023年的DCASE挑战中排名第一,在ClothoV2基准测试中的表现优于当前的最新技术,mAP@10提高了5.6个百分点。

🎯

关键要点

  • 该研究提出了一种基于文本的音频检索系统。
  • 系统使用预训练的文本和频谱图变换器。
  • 关键组件包括基于自注意力机制的音频编码器。
  • 系统在预训练期间利用附加的人工生成和合成数据集。
  • 该系统在2023年的DCASE挑战中排名第一。
  • 在ClothoV2基准测试中,系统表现优于当前的最新技术。
  • mAP@10提高了5.6个百分点。
➡️

继续阅读