本研究提出了LLaMA-Omni 2系列语音语言模型,结合了语音编码器和解码器。尽管仅使用20万多轮对话样本进行训练,该模型在多个基准测试中超越了GLM-4-Voice模型。
本研究探讨了嵌入排名作为自监督学习训练的通用语音编码器的无监督评估指标。结果显示,嵌入排名与不同下游任务的性能相关,但无法可靠预测特定任务的最佳层。尽管如此,嵌入排名仍是监测自监督学习语音模型训练进展的有价值工具。
本研究提出了MERaLiON语音编码器,旨在满足新加坡及东南亚地区的语音处理需求。该模型通过自监督学习,在20万小时未标记语音数据上预训练,显著提升了语音识别性能,并承诺开放以支持更广泛的研究。
本研究提出了BLOOMZMMS,利用多语言语言模型和语音编码器,为语音识别和其他领域的大型语言模型应用提供了新的方法。实验证明,该方法在多种任务上具有强大的鲁棒性。
本文研究了使用Whisper作为多语言语音模型示例。通过语音编码器生成的话语表征,保留了一些语言敏感信息,但不同语言的单词映射到相似的语义空间。通过共享的嵌入空间,证明了零-shot跨语言转移在语音翻译中的应用。Whisper在使用英语到中文翻译数据进行微调后,在其他语言的输入话语上表现出性能提升。通过跨语言表示,Whisper可以对预训练过程中未见的语言进行语音翻译。
该论文比较了三种连接结构,并对语音编码器和语言模型进行了实验。结果显示,基于Q-Former的语言模型在多个数据集上都取得了显著的词错误率降低。研究还提出了一种新的片段级Q-Former,能够识别超过编码器限制的语音片段,并取得了17%的词错误率降低。
该文介绍了一个新的零资源代码切换语音基准,用于评估自我监督语音编码器的代码切换能力。实验包括多种知名的语音编码器,研究了预训练语言和模型大小对基准性能的影响。结果表明,多语言预训练的语音编码器优于单语变体,但仍有改进空间。
该论文比较了三种连接结构,包括全连接层、多头交叉注意力和 Q-Former,并在语音编码器和大语言模型上进行了实验。结果表明,基于 Q-Former 的大语言模型在多个数据集上取得了显著的词错误率降低。此外,还提出了一种新的片段级 Q-Former,可以识别超过编码器限制的语音片段,相比其他连接结构取得了17%的词错误率降低。
完成下面两步后,将自动完成登录并继续当前操作。