美团LongCat团队推出的LongCat-Video视频生成模型,通过多任务统一架构,实现高质量长视频生成,具备良好的时序一致性和物理合理性,为自动驾驶等应用奠定基础。
南洋理工大学与商汤科技联合研发的MatAnyone视频抠图技术,能够在复杂背景下高效提取目标。用户只需在首帧指定目标,后续帧将自动稳定抠图,具备良好的细节还原和时序一致性,适用于多种视频处理场景。
本研究提出了RelightVid框架,旨在解决视频重光照中配对数据集不足和高保真度输出的需求。该框架灵活适应多种重光照条件,实现高时序一致性的重光照效果。
可灵(KLING)是快手AI团队推出的全球首个可公开体验的真实影像级视频生成大模型,经过多次功能升级,推动行业发展。其开源数据集Koala-36M提升了视频生成质量,并与清华大学合作提出新的视频生成范式Owl-1,展现了更高的时序一致性和逻辑合理性。
本研究提出了一种基于掩膜的运动轨迹框架,能够将静态图像转化为真实视频序列,有效解决了对象运动不准确和不一致的问题。该方法在多对象和高运动场景中展现了优异的时序一致性和文本提示忠实度。
本研究提出了一种新颖的全端到端口型同步框架LatentSync,基于音频条件的潜在扩散模型,旨在提高时序一致性和口型同步的准确性。
本文提出了StereoCrafter-Zero框架,通过噪声重启和迭代优化,显著改善了立体视频生成中的深度感知和时序一致性问题。
本研究提出了一种新方法RL-V2V-GAN,旨在解决视频到视频合成中的有限标记数据问题。该方法通过增强学习实现源视频到目标视频的映射,同时保持源视频的风格。实验结果表明,在少样本学习条件下,该方法能够生成时序一致的视频。
本研究提出了一种视频指南框架,解决文本到视频生成的时序一致性问题。该方法利用预训练的视频扩散模型引导,无需额外训练,提升了视频生成的时序质量和图像保真度,具有成本效益和应用潜力。
该论文提出了一种名为PGTFormer的盲视频人脸修复模型,通过语义解析的引导选择最佳的面部先验,生成时序一致且无伪影的结果。该模型无需面部预对齐,能提高视频的时序一致性。在多个定量指标和主观视觉对比实验中,该方法表现优异。
本文介绍了一种基于多视图校准的多人3D姿势估计和跟踪方法,利用时序一致性来匹配先前构建的每个视图中的用2D姿势估计生成的3D骨架,并提出两种策略以实现更好的对应关系和3D重构。该方法在两个基准上取得了竞争性成果,并在Campus测试中表现良好。
本研究使用基于3D nnU-Net的深度学习方法进行医学图像分割,并与传统2D和循环分割方法进行比较。在私人数据集CARDINAL上测试结果显示,该方法在时序一致性和跨数据集泛化性方面具有优势,有望成为临床工具的首选。
我们提出了一种新颖的零样条移动物体轨迹控制框架Motion-Zero,通过提供基于位置的先验来改善移动物体的外观稳定性和位置准确性,并利用U-net的注意力图在扩散模型的去噪过程中直接应用空间约束,从而进一步确保移动物体的位置和空间一致性,并通过引入移动注意力机制实现时序一致性的保证。这种方法可以灵活运用于各种最先进的视频扩散模型,无需任何训练过程,大量实验证明我们的方法可以控制物体的运动轨迹并生成高质量的视频。
本文介绍了一种基于多视图校准的多人3D姿势估计和跟踪方法,利用时序一致性来匹配先前构建的每个视图中的用2D姿势估计生成的3D骨架,并提出两种策略以实现更好的对应关系和3D重构。该方法在两个基准上取得了竞争性成果,并在Campus测试中取得了良好的结果。
本文提出了一个新的用于验证视频脸部年龄回溯效果的基线架构,并开发了三个新度量指标。实验证明,该方法在年龄转换和时序一致性方面优于现有方法。
该研究使用基于3D nnU-Net的深度学习方法进行医学图像分割,并与传统2D和循环分割方法进行比较。结果表明该方法在时序一致性和跨数据集泛化性方面具有优势,有望成为临床工具的首选。
该研究使用3D nnU-Net深度学习方法进行医学图像分割,结果表明该方法在时序一致性和跨数据集泛化性方面具有优势,有望成为临床工具的首选。
本研究使用基于3D nnU-Net的深度学习方法进行医学图像分割,并与传统2D和循环分割方法进行比较。在私人数据集CARDINAL上测试结果显示,该方法在时序一致性和跨数据集泛化性方面表现优异,有望成为临床工具的首选。
本研究使用基于3D nnU-Net的深度学习方法进行医学图像分割,并与传统2D和循环分割方法进行比较。测试结果显示该方法在时序一致性和跨数据集泛化性方面具有优势,有望成为临床工具的首选。
完成下面两步后,将自动完成登录并继续当前操作。