小红花·文摘

本研究提出EMOVA模型，解决大型语言模型在开源社区处理图像、文本和语音的挑战。通过语义-声学解耦的语音标记器，提升视觉语言和语音能力，在基准测试中表现优异，支持情感丰富的全模态对话。