小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文研究了弱监督下的视频句子时间定位,提出了多种模型和方法,包括基于回归的双模态交互、跨模态注意力模块和常识感知对齐框架,均在Charades-STA和ActivityNet Captions数据集上表现优异。此外,提出的VTG-GPT和VTG-LLM模型显著提升了视频时间定位的准确性和效率。

让我说完我的句子:通过整体文本理解进行视频时间定位

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

本文介绍了一种新颖的音频驱动面部动画生成方法,能够生成高质量的说话视频,确保唇语同步和丰富的面部表情。该方法通过多阶段框架和跨模态注意力技术,在生成质量和计算效率上优于现有技术,适用于实际应用。实验结果表明,其在个性化说话风格和视觉细节保持方面表现出色。

PersonaTalk:在视觉配音中突出你的角色

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-09T00:00:00Z

本文探讨了自然语言视频定位的多种方法,包括弱监督模型、跨模态注意力模块和基于常识感知的对齐框架,旨在提高视频时间定位的精确度和效率。研究表明,这些新方法在多个数据集上表现优越,推动了视频定位技术的发展。

无训练视频时间定位的基于大规模预训练模型的方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-29T00:00:00Z

该研究提出了一种基于文本描述的三维人体生成方法,利用跨模态注意力融合时尚语义,控制服装的形状和颜色。通过分层式3D生成模型和互动系统,用户可以高效生成和编辑3D服装,支持虚拟试穿,展示了在生成高质量3D着装人物方面的优越性。

HumanCoser:通过语义感知扩散模型生成分层3D人类

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-21T00:00:00Z

该论文提出了一种基于视频和音频数据的零样本学习方法,利用跨模态注意力学习多模态表示,并通过文本标签嵌入实现知识转移。实验结果显示,该方法在多个数据集上表现优异,超越了现有技术。

音视通用零样本学习简洁方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-18T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码