BriefGPT - AI 论文速递 ·

文本驱动的人体动作生成的逐渐丰富合成

💡 原文中文，约500字，阅读约需2分钟。

📝

内容提要

本研究提出了一种基于级联扩散的生成框架，用于文本驱动的人体动作合成。该框架利用了一种名为GUESS的策略，将人体姿态逐步抽象为多个粒度级别上的更粗糙的骨架，从而改善了跨模态动作合成任务。实验证明，GUESS优于现有方法。

🎯

关键要点

本研究提出了一种基于级联扩散的生成框架，用于文本驱动的人体动作合成。
该框架利用了一种名为GradUally Enriching SyntheSis（GUESS）的策略。
GUESS策略通过将语义上紧密相连的身体关节进行聚类分组，逐步将人体姿态抽象为多个粒度级别上的更粗糙的骨架。
采用逐渐增加的抽象级别，人体动作变得更加简洁和稳定，显著改善了跨模态动作合成任务。
将文本驱动的人体动作合成问题划分为多个抽象级别，并利用级联潜在扩散模型的多阶段生成框架解决。
初始生成器从给定的文本描述中生成最粗糙的人体动作猜测，随后逐渐丰富动作细节。
GUESS与动态多条件融合机制相结合，以动态平衡文本条件和合成粗动作提示的合作效应。
大规模数据集上的实验证明，GUESS在准确性、逼真度和多样性方面优于现有的最先进方法。

🏷️

标签

GUESS 人体动作合成文本驱动生成框架级联扩散

➡️

继续阅读

HBO Max新增AI驱动的发现功能，包括Shorts和对话式搜索
华纳兄弟探索频道正在为 HBO Max 引入全新的 AI 驱动的内容发现工具，包括垂直视频流和对话式搜索体验，旨在帮助订阅用户更轻松地找到节目。首个功能...
Robo.ai任命前国际刑警组织主席出任Alif Holding董事长
(全球TMT 2026年07月30日讯)Robo.ai Inc. 宣布，任命前国际刑警组织主席Ahmed N […]
俄罗斯指控Telegram创始人协助(乌兰克)进行恐怖主义活动已发布国际通缉令
#行业资讯俄罗斯指控 Telegram 创始人帕维尔杜罗夫协助恐怖主义活动，目前已通过国际刑警组织向杜罗夫发出国际通缉令。俄罗斯称 Telegram 长...
高通和 IDC 说，智能眼镜会是手机之外，最重要的 AI 设备
AI 将会成功智能设备的基础能力。#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
GPT-5.6自己优化自己实锤了，新的左脚踩右脚已经出现
OpenAI的RSI焚诀，它来了！
李飞飞的世界模型，终于开始训练机器人了
李飞飞老师的World Labs，补了块关键拼图