本研究提出了LLaMA-Omni 2系列语音语言模型,结合了语音编码器和解码器。尽管仅使用20万多轮对话样本进行训练,该模型在多个基准测试中超越了GLM-4-Voice模型。
本研究探讨了嵌入排名作为自监督学习训练的通用语音编码器的无监督评估指标。结果显示,嵌入排名与不同下游任务的性能相关,但无法可靠预测特定任务的最佳层。尽管如此,嵌入排名仍是监测自监督学习语音模型训练进展的有价值工具。
本研究提出了MERaLiON语音编码器,旨在满足新加坡及东南亚地区的语音处理需求。该模型通过自监督学习,在20万小时未标记语音数据上预训练,显著提升了语音识别性能,并承诺开放以支持更广泛的研究。
本文探讨了多种先进语音编码器在低资源环境下的表现,特别是Whisper在语音理解和生成任务中的优越性。研究还介绍了Speech-LLaMA和Qwen-Audio模型,后者通过多任务训练框架提升了音频理解能力,并支持多轮对话。研究提出了新的训练策略和评估基准,以解决语音识别和翻译模型的数据不足问题。
该文介绍了一个新的零资源代码切换语音基准,用于评估自我监督语音编码器的代码切换能力。实验包括多种知名的语音编码器,研究了预训练语言和模型大小对基准性能的影响。结果表明,多语言预训练的语音编码器优于单语变体,但仍有改进空间。
该论文比较了三种连接结构,包括全连接层、多头交叉注意力和 Q-Former,并在语音编码器和大语言模型上进行了实验。结果表明,基于 Q-Former 的大语言模型在多个数据集上取得了显著的词错误率降低。此外,还提出了一种新的片段级 Q-Former,可以识别超过编码器限制的语音片段,相比其他连接结构取得了17%的词错误率降低。
完成下面两步后,将自动完成登录并继续当前操作。