小红花·文摘

该论文提出了一种新的声学嵌入方案sound-word2vec，应用于文本检索和电影制作等任务。研究探讨了无监督神经网络模型在语音与图像的语义关联，提出了基于双流网络的算法用于声源定位，并通过自监督学习提升性能。此外，介绍了Spatial LibriSpeech数据集用于训练模型，展示了在声音景观映射和跨模态检索中的优越表现。