该研究提出了一种基于文本的音频检索系统,使用自注意力机制的音频编码器和附加的人工生成和合成数据集。该系统在2023年的DCASE挑战中排名第一,在ClothoV2基准测试中表现优于最新技术,提高了5.6个百分点的mAP@10。
该研究提出了一种基于文本的音频检索系统,使用自注意力机制的音频编码器和附加的人工生成和合成数据集。该系统在2023年的DCASE挑战中排名第一,在ClothoV2基准测试中的表现优于当前的最新技术,提高了5.6个百分点的mAP@10。
该研究提出了一种基于文本的音频检索系统,使用预训练的文本和频谱图变换器。系统的关键组件是基于自注意力机制的音频编码器和利用附加的人工生成和合成数据集进行预训练。该系统在2023年的DCASE挑战中排名第一,在ClothoV2基准测试中的表现优于当前的最新技术,mAP@10提高了5.6个百分点。
完成下面两步后,将自动完成登录并继续当前操作。