BriefGPT - AI 论文速递 ·

超越障碍的桥梁：基于词汇提醒的细粒度提示手势生成与扩散模型

💡 原文中文，约1700字，阅读约需5分钟。

📝

内容提要

本文介绍了基于扩散模型的手势生成系统，重点在于通过语言和手势的联合嵌入实现语义感知的共言语手势生成。研究提出了C2G2框架和DiffGesture等多种方法，以提高手势生成的质量和一致性，实验结果表明这些方法优于现有技术。

🎯

❓

C2G2框架是一种可控共语手势生成框架，旨在解决训练不稳定、时间不一致和对生成手势的控制不足等问题。

DiffGesture框架有效捕捉音频与手势之间的关联，保持时间一致性，实现高保真的音频驱动共话手势生成。

LivelySpeaker框架通过两个阶段实现手势生成：基于脚本的手势生成和基于音频引导的节奏细化。

ConvoFusion方法适用于生成单语和对话式手势，能够调节不同条件模态并强调重点单词。

CSMP模块学习语言和手势的联合嵌入，作为扩散式手势合成模型中的条件信号，提升手势生成质量。

实验结果表明，提出的方法在手势生成的质量和一致性方面优于现有技术，获得了最高的人类相似度和语言适应性评分。

🏷️