本文提出了声学邻居嵌入的理论框架,解释了可变宽度音频或文本的音素内容在固定维度嵌入空间中的表示。通过定量定义词语音素相似性,提出了嵌入距离的概率解释。研究表明,该框架可用于音频和文本嵌入的最近邻搜索,分类准确率与有限状态转换器相同,并在词汇恢复和方言聚类中表现优异。所有源代码和预训练模型均已提供。
完成下面两步后,将自动完成登录并继续当前操作。