InfoQ ·

中国科学院大学开源多模态大型语言模型LLaMA-Omni

💡 原文英文，约600词，阅读约需2分钟。

📝

内容提要

中国科学院大学开源了LLaMA-Omni，这是一种能处理语音和文本的大型语言模型。基于Meta的Llama-3.1-8B-Instruct，LLaMA-Omni在更少训练数据和计算下表现优异。通过加入语音编码器和解码器，减少了语音输入到输出的延迟。模型在InstructS2S-200K数据集上微调，响应延迟低至226毫秒。未来计划提升语音生成的表现力和实时交互能力。

🎯

关键要点

中国科学院大学开源了LLaMA-Omni，这是一种能处理语音和文本的大型语言模型。
LLaMA-Omni基于Meta的Llama-3.1-8B-Instruct，表现优异且需要更少的训练数据和计算。
该模型通过加入语音编码器和解码器，减少了语音输入到输出的延迟。
模型在InstructS2S-200K数据集上微调，响应延迟低至226毫秒。
未来计划提升语音生成的表现力和实时交互能力。
研究团队评估了LLaMa-Omni在语音到文本和语音到语音任务上的表现，超越了其他基线模型。
LLaMA-Omni在内容和风格上均优于基线模型，尤其在语音到语音任务中表现突出。
用户讨论了端到端模型的优势，指出数据损失和延迟改善等潜在好处。
LLaMA-Omni使用OpenAI的Whisper模型进行语音编码，类似于LLaVA的做法。
集成语音输入输出到大型语言模型中是一个日益增长的趋势，相关模型文件可在Huggingface上获取。

🔎

延伸解读

LLaMA-Omni的技术优势

LLaMA-Omni通过将语音编码器和解码器集成到模型中，显著降低了语音输入到输出的延迟。这种端到端的架构相比传统的分离式语音识别和文本转语音系统，能够更高效地处理语音交互，提升用户体验。

训练效率与应用前景

LLaMA-Omni在训练时仅需不到3天的时间，且使用4个GPU即可完成。这种高效的训练方式使得开发基于最新大型语言模型的语音交互系统变得更加可行，未来可能会推动更多实时语音应用的落地。

用户反馈与模型比较

用户在讨论中提到，LLaMA-Omni的端到端模型在语音到文本和语音到语音任务中表现优于其他基线模型，尤其在内容和风格上都有显著提升。这表明该模型在实际应用中可能更能满足用户需求。

❓

延伸问答

LLaMA-Omni是什么类型的模型？

LLaMA-Omni是一种能够处理语音和文本的大型语言模型。

LLaMA-Omni的训练数据需求如何？

LLaMA-Omni在表现优异的同时，所需的训练数据和计算量较少。

LLaMA-Omni的响应延迟是多少？

LLaMA-Omni的响应延迟低至226毫秒。

LLaMA-Omni如何减少语音输入到输出的延迟？

通过加入语音编码器和解码器，LLaMA-Omni减少了语音输入到输出的延迟。

LLaMA-Omni在语音到文本和语音到语音任务上的表现如何？

LLaMA-Omni在这两项任务上超越了其他基线模型，尤其在内容和风格上表现突出。

未来LLaMA-Omni的改进计划是什么？

未来计划提升语音生成的表现力和实时交互能力。

🏷️