大型身体语言模型
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了现实场景中人机交互时生成真实且上下文恰当的手势的挑战。提出了一种新的大型身体语言模型架构LBLM-AVA,通过结合Transformer-XL语言模型和并行扩散模型,从多模态输入中生成类似人类的手势。实验表明,该模型在手势生成方面的表现超过现有方法,具有显著的准确性和真实感提升。
该研究提出了“diffmotion-v2”模型,利用WavLM预训练模型生成个性化共说手势,简化多模态处理,提取音频信息并学习语音与手势的关系。