机器之心 ·

mini-GPT4o来了? 能看、能听、会说，还情感丰富的多模态全能助手EMOVA

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

香港科技大学、香港大学和华为诺亚方舟实验室合作开发了EMOVA，一个多模态智能助手，能够处理图像、文本和语音，并通过情感控制实现人性化交流。EMOVA结合视觉编码器和语音分词器，支持情感丰富的语音对话，在复杂图像理解和语音生成方面表现优异。

🎯

❓

EMOVA是一个多模态智能助手，能够处理图像、文本和语音，并通过情感控制实现人性化交流。

EMOVA结合了视觉编码器、语音分词器和情感控制模块，支持情感丰富的语音对话和复杂图像理解。

EMOVA通过开源双模态数据，以文本模态作为媒介进行全模态训练，避免了全模态数据匮乏的问题。

EMOVA在视觉理解和语音任务的基准测试中表现优越，尤其在复杂图像理解任务中超过了GPT-4o。

情感控制模块支持对语音情感、说话人特征、语速和音调的控制，使人机交互更加自然。

EMOVA填补了全模态交互的空白，使得大语言模型在视觉、听觉和语言处理上同时具备优越表现。

🏷️

直播间/语聊房AI互动助手如何助力新人主播熬过”开播前3分钟”
直播间的活跃感难以维持，导致新用户流失和主播冷启动困难。即构科技的AI助手通过实时话术推荐和互动发言推送，帮助主播和观众快速融入，提高互动效率，解决冷场问...
性和浪漫爱情可以都是崇高的
这个世界上依然有很多人对性与浪漫爱情执行着这样的二分法：性是人类本性中动物性的甚至兽性的部分，是低劣的部分；而浪漫爱情则是人类本性中的人性的部分，是崇高的...
证书到期了
无法发图...
为什么中端市场买家正在重新思考他们的 UCaaS 策略
中型企业正在重新审视通信平台，强调集成、运营效率和合规性。它们快速采用统一通信（UC）平台，但面临资源不足的挑战。集成与行业特定系统的兼容性成为关键，许多...
AI攻防视界：从Mythos破局看漏洞挖掘的工程化跃迁
Mythos Preview模型在漏洞挖掘方面取得重大突破，能够自动发现并串联低危漏洞，生成可验证的PoC代码。该模型在多语言审计中表现出色，真阳性率高达...
AI和柜台费
现在这个时间点，观察到两件事：华为的大模型哑火。国内的AI圈反而没那么多恶臭拉踩舆论雷不斯天天给MIMO搞新闻。一开始是免费用在Openrouter...