该论文提出了一种新的声学嵌入方案sound-word2vec,应用于文本检索和电影制作等任务。研究探讨了无监督神经网络模型在语音与图像的语义关联,提出了基于双流网络的算法用于声源定位,并通过自监督学习提升性能。此外,介绍了Spatial LibriSpeech数据集用于训练模型,展示了在声音景观映射和跨模态检索中的优越表现。
完成下面两步后,将自动完成登录并继续当前操作。