中国科学院大学开源多模态大型语言模型LLaMA-Omni
原文英文,约600词,阅读约需2分钟。发表于: 。Researchers at the University of Chinese Academy of Sciences (UCAS) recently open-sourced LLaMA-Omni, an LLM that can operate on both speech and text data. LLaMA-Omni is based on Meta's...
中国科学院大学开源了LLaMA-Omni,这是一种能处理语音和文本的大型语言模型。基于Meta的Llama-3.1-8B-Instruct,LLaMA-Omni在更少训练数据和计算下表现优异。通过加入语音编码器和解码器,减少了语音输入到输出的延迟。模型在InstructS2S-200K数据集上微调,响应延迟低至226毫秒。未来计划提升语音生成的表现力和实时交互能力。