BriefGPT - AI 论文速递 ·

自监督学习潜在表示中的偏差以生成共语手势视频

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本研究提出了多个框架和模型，以提高语音驱动的共语手势生成效果。通过引入多模态预训练、情感线索和运动解耦技术，研究在手势合成、生成质量和速度方面取得了显著提升，尤其是在直接生成3D手势方面。

🎯

关键要点

本研究提出了ANGIE框架，使用向量量化运动提取器和共同语言GPT，以实现高保真度的图像序列生成。
通过生成对抗网络和量化流水线预训练局部姿态序列，取得了比现有方法更好的手势生成效果。
提出基于多模态预训练编码器的共话手势生成方法，能够在输入模态缺失或存在噪声时生成逼真的共话手势。
EMoG框架通过情感线索指导生成过程，分解难以生成的姿态为关节相关性建模和时间动力学建模，表现优异。
C2G2框架解决了训练不稳定、时间不一致等问题，通过时间依赖增强策略和说话者特定解码器生成真实长度骨骼。
CSMP模块学习语言和手势的联合嵌入，提升了语义感知的共言语手势生成效果。
提出新的运动解耦框架，通过非线性TPS变换和基于变压器的扩散模型生成一致的手势视频。
研究评估训练数据维度对多模态语音至手势生成模型性能的影响，发现直接生成3D手势效果更佳。
MDT-A2G模型强化时序手势关系学习，提高手势生成速度与质量，学习速度比传统方法快6倍。
研究展示了手势表示维度的重要性，直接在3D中生成的手势表现优于2D转3D的手势。

❓

延伸问答

ANGIE框架的主要功能是什么？

ANGIE框架使用向量量化运动提取器和共同语言GPT，实现高保真度的图像序列生成。

EMoG框架如何改进手势生成？

EMoG框架通过情感线索指导生成过程，将难以生成的姿态分解为关节相关性建模和时间动力学建模，表现优异。

C2G2框架解决了哪些问题？

C2G2框架解决了训练不稳定、时间不一致等问题，并通过时间依赖增强策略生成真实长度骨骼。

MDT-A2G模型的优势是什么？

MDT-A2G模型强化了时序手势关系学习，学习速度比传统方法快6倍，推理速度快5.7倍。

研究中如何评估训练数据维度的影响？

研究比较了直接生成的3D手势序列与通过2D生成并转换为3D后的手势序列，发现直接生成3D手势效果更佳。

如何生成一致的手势视频？

通过引入非线性TPS变换和基于变压器的扩散模型，学习手势和语音之间的时序相关性，生成一致的手势视频。

🏷️

标签

3D手势生成共语手势多模态预训练情感线索语音驱动

➡️

继续阅读

实测 Doubao-Seed-Evolving：把 Windows 桌面图标做成一个会自己运转的小世界 - 努力的小雨
豆包 Seed 又更新了：一张永远“最新”的模型卡这次豆包推出的不是一个过段时间就会落后的固定版本，而是 Doubao-Seed-Evolving：一个...
Amazon Bedrock AgentCore Gateway 内置 Web 搜索工具实战
通过 MCP 将 Web Search Tool 集成到 AgentCore Gateway，为 AI Agents 提供实时网络搜索能力。
远程控制安卓工具 Scrcpy 4.1 发布，新增 VP8 / VP9 视频编码支持，让更多安卓设备可以投屏
著名的开源电脑控制安卓工具 Scrcpy 4.1 已经发布，新增支持 VP8 / VP9 视频编码，可以让不支持 H.264、H.265 或 AV1 编码...
GKE Security Blueprint Joins Growing List of Cloud AI Frameworks
Google Cloud has published a new blueprint setting out how organisations shou...
嫌 Listary 很久不更新，搞了个开源替代品：SwiftList
如果你跟我一样，曾经是 Listary 的忠实用户，但苦于其近年来闭源、更新慢，或者希望有一款能自己随意定制插件、完全掌控的高性能搜索工具，那么 Swif...
百度文心助手任务Agent登顶国际权威榜单，超越Claude、GPT拿下全球智能体冠军