小红花·文摘 - 小红花技术领袖俱乐部

以数据为中心的教训：改进语音语言预训练

以数据为中心的教训：改进语音语言预训练

Apple Machine Learning Research ·

本研究提出了LLaMA-Omni 2系列语音语言模型，结合了语音编码器和解码器。尽管仅使用20万多轮对话样本进行训练，该模型在多个基准测试中超越了GLM-4-Voice模型。

LLaMA-Omni2: Real-time Voice Chatbot and Autoregressive Streaming Speech Synthesis Based on Large Language Models

BriefGPT - AI 论文速递 ·

本文提出了VoxEval，一个新的基于语音的问答基准，旨在评估端到端语音语言模型的知识理解能力。研究表明，现有模型在多样化音频条件下存在显著性能限制，为未来改进提供了方向。

VoxEval: Evaluating the Knowledge Understanding Capabilities of End-to-End Spoken Language Models

BriefGPT - AI 论文速递 ·

本研究提出了热启动训练方法，将上下文学习与语音语言模型相结合，实现了在未知任务上进行ICL。研究证实了语音语言模型进行ICL的可行性。

语音语言模型中上下文学习的探索

BriefGPT - AI 论文速递 ·