香港科技大学、香港大学和华为诺亚方舟实验室合作开发了EMOVA,一个多模态智能助手,能够处理图像、文本和语音,并通过情感控制实现人性化交流。EMOVA结合视觉编码器和语音分词器,支持情感丰富的语音对话,在复杂图像理解和语音生成方面表现优异。
本研究提出EMOVA模型,解决大型语言模型在开源社区处理图像、文本和语音的挑战。通过语义-声学解耦的语音标记器,提升视觉语言和语音能力,在基准测试中表现优异,支持情感丰富的全模态对话。
完成下面两步后,将自动完成登录并继续当前操作。