机器之心 ·

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

💡 原文中文，约4500字，阅读约需11分钟。

📝

内容提要

研究团队提出了一种新型多模态语言模型，能够同时处理音频和文本输入，并生成相应的动作。该模型统一了人类动作的言语和非言语语言，尤其在数据稀缺情况下展现出优异的动作生成和理解能力。

🎯

关键要点

研究团队提出了一种新型多模态语言模型，能够同时处理音频和文本输入，并生成相应的动作。
该模型统一了人类动作的言语和非言语语言，尤其在数据稀缺情况下展现出优异的动作生成和理解能力。
多模态语言模型能够将多种模态的不同任务统一在一个框架下。
该模型可以根据音频和文本输入生成对应的动作，提升了动作生成的表现力。
研究团队设计了一个两阶段式训练流程，包括预训练和后训练，以提高模型的性能。
模型在预训练期间未见过语音-动作数据，但在新说话者上表现出显著的泛化能力。
该模型使用针对特定模态的tokenizer来处理各种输入模态，并生成输出。
通过组合动作对齐和音频-文本对齐的预训练策略，模型能够有效学习不同模态之间的关系。
实验结果显示，该模型在音频到动作生成任务中优于现有方法，且在缺乏数据时表现更佳。
模型具备可编辑动作生成能力，能够根据语音和文本指令生成自然的全身动作。
新模型在根据动作预测情绪的任务上表现优异，能够有效解读肢体语言。

❓

延伸问答

这个多模态语言模型的主要功能是什么？

该模型能够同时处理音频和文本输入，并生成相应的动作。

该模型如何处理数据稀缺的情况？

模型在数据稀缺情况下展现出优异的动作生成和理解能力，尤其通过预训练策略提升泛化能力。

研究团队采用了什么样的训练流程来提升模型性能？

团队设计了一个两阶段式训练流程，包括预训练和后训练，以提高模型的性能。

该模型在生成动作时如何确保与语音的同步性？

模型通过编码器-解码器结构生成输出，确保生成的动作与输入的语音同步。

这个模型在情绪预测任务上表现如何？

模型在根据动作预测情绪的任务上表现优异，能够有效解读肢体语言。

该模型的可编辑动作生成能力有什么应用价值？

这种能力对游戏和虚拟现实等应用具有重要价值，能够根据语音和文本指令生成自然的全身动作。

🏷️

继续阅读

腾讯开源手机端离线翻译模型，仅0.4G，支持33种语言
腾讯混元推出了开源的离线翻译模型Hy-MT1.5-1.8B-1.25bit，支持33种语言，压缩至440MB，翻译质量优于谷歌翻译。该模型可在手机本地运行...
NVIDIA推出Nemotron 3 Nano Omni模型，整合视觉、音频和语言，实现高达9倍的AI代理效率
NVIDIA推出Nemotron 3 Nano Omni模型，将视觉、音频和语言整合为一个系统，显著提升AI代理的效率和准确性。该模型具备高达9倍的处理能...
在线教程丨高性能与易部署兼得，DeepSeek-V4-Flash模型参数284B，简单任务可媲美1.6T Pro版模型
DeepSeek V4 最近发布，分为 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两个版本。Pro 版本参数达到 1.6T，...
Claude Mythos Preview 模型能力解析：大模型攻防实测与企业应对建议
绿盟科技的报告分析了Anthropic的Claude Mythos模型，指出其在0day漏洞挖掘和网络攻击中的高效能，可能增加开源供应链的风险。报告建议企...
300人团队实现OpenClaw零事故自动化运维全记录
文章介绍了如何在企业中使用AI智能体“龙虾”进行自动化运维。通过安全沙箱和权限管理，龙虾能够高效处理客户问题，提升团队协作和工作效率，同时确保数据安全和隐...
Zed AI 白嫖免费模型，搭配 DeepSeek v4，玩转 Agent 编程技巧 - 曦远Code
Zed 编辑器功能灵活，支持多种 AI 模型，用户可通过 ACP 协议配置 agent。虽然 AI 功能有限，但适合日常开发和文档生成，提供免费模型使用，...