小红花·文摘

本研究提出了LLaMA-Omni 2系列语音语言模型，结合了语音编码器和解码器。尽管仅使用20万多轮对话样本进行训练，该模型在多个基准测试中超越了GLM-4-Voice模型。

LLaMA-Omni2: Real-time Voice Chatbot and Autoregressive Streaming Speech Synthesis Based on Large Language Models

BriefGPT - AI 论文速递 ·

基于排名的自监督语音模型自动评估研究

Apple Machine Learning Research ·

本研究提出了MERaLiON语音编码器，旨在满足新加坡及东南亚地区的语音处理需求。该模型通过自监督学习，在20万小时未标记语音数据上预训练，显著提升了语音识别性能，并承诺开放以支持更广泛的研究。

Towards a Speech Foundation Model for Singapore and Its Surrounding Regions

BriefGPT - AI 论文速递 ·

本研究提出了BLOOMZMMS，利用多语言语言模型和语音编码器，为语音识别和其他领域的大型语言模型应用提供了新的方法。实验证明，该方法在多种任务上具有强大的鲁棒性。

利用构建的代码切换数据增强大语言模型的多语言语音生成和识别能力

BriefGPT - AI 论文速递 ·

本文研究了使用Whisper作为多语言语音模型示例。通过语音编码器生成的话语表征，保留了一些语言敏感信息，但不同语言的单词映射到相似的语义空间。通过共享的嵌入空间，证明了零-shot跨语言转移在语音翻译中的应用。Whisper在使用英语到中文翻译数据进行微调后，在其他语言的输入话语上表现出性能提升。通过跨语言表示，Whisper可以对预训练过程中未见的语言进行语音翻译。

跨语言迁移学习的语音翻译

BriefGPT - AI 论文速递 ·

该论文比较了三种连接结构，并对语音编码器和语言模型进行了实验。结果显示，基于Q-Former的语言模型在多个数据集上都取得了显著的词错误率降低。研究还提出了一种新的片段级Q-Former，能够识别超过编码器限制的语音片段，并取得了17%的词错误率降低。

连接语音编码器和大型语言模型的全面解决方案用于语音识别

BriefGPT - AI 论文速递 ·

该文介绍了一个新的零资源代码切换语音基准，用于评估自我监督语音编码器的代码切换能力。实验包括多种知名的语音编码器，研究了预训练语言和模型大小对基准性能的影响。结果表明，多语言预训练的语音编码器优于单语变体，但仍有改进空间。

零资源混合语言音频基准测试：使用语音句对进行多种口语语言测试

BriefGPT - AI 论文速递 ·

该论文比较了三种连接结构，包括全连接层、多头交叉注意力和 Q-Former，并在语音编码器和大语言模型上进行了实验。结果表明，基于 Q-Former 的大语言模型在多个数据集上取得了显著的词错误率降低。此外，还提出了一种新的片段级 Q-Former，可以识别超过编码器限制的语音片段，相比其他连接结构取得了17%的词错误率降低。

连接语音编码器和大型语言模型用于 ASR

BriefGPT - AI 论文速递 ·