小红花·文摘

LongCat-Video 视频生成模型正式发布，探索世界模型的第一步

美团技术团队 ·

CVPR 2025｜视频抠图MatAnyone来了，一次指定全程追踪，发丝级还原

机器之心 ·

本研究提出了RelightVid框架，旨在解决视频重光照中配对数据集不足和高保真度输出的需求。该框架灵活适应多种重光照条件，实现高时序一致性的重光照效果。

RelightVid: A Temporal Consistent Diffusion Model for Video Relighting

BriefGPT - AI 论文速递 ·

快手可灵凭什么频繁刷屏？揭秘背后三项重要研究

机器之心 ·

本研究提出了一种基于掩膜的运动轨迹框架，能够将静态图像转化为真实视频序列，有效解决了对象运动不准确和不一致的问题。该方法在多对象和高运动场景中展现了优异的时序一致性和文本提示忠实度。

Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的全端到端口型同步框架LatentSync，基于音频条件的潜在扩散模型，旨在提高时序一致性和口型同步的准确性。

LatentSync: Lip Syncing Based on Audio-Conditioned Latent Diffusion Model

BriefGPT - AI 论文速递 ·

本文提出了StereoCrafter-Zero框架，通过噪声重启和迭代优化，显著改善了立体视频生成中的深度感知和时序一致性问题。

StereoCrafter-Zero: Zero-Shot Stereo Video Generation Without Paired Training Data

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法RL-V2V-GAN，旨在解决视频到视频合成中的有限标记数据问题。该方法通过增强学习实现源视频到目标视频的映射，同时保持源视频的风格。实验结果表明，在少样本学习条件下，该方法能够生成时序一致的视频。

基于策略梯度的少样本学习视频到视频生成对抗网络

BriefGPT - AI 论文速递 ·

本研究提出了一种视频指南框架，解决文本到视频生成的时序一致性问题。该方法利用预训练的视频扩散模型引导，无需额外训练，提升了视频生成的时序质量和图像保真度，具有成本效益和应用潜力。

视频人脸修复方案：无需预对齐的解析引导时序一致性模型 PGTFormer

实时互动网 ·

本文介绍了一种基于多视图校准的多人3D姿势估计和跟踪方法，利用时序一致性来匹配先前构建的每个视图中的用2D姿势估计生成的3D骨架，并提出两种策略以实现更好的对应关系和3D重构。该方法在两个基准上取得了竞争性成果，并在Campus测试中表现良好。

多视角姿态融合用于遮挡感知的3D人类姿态估计

BriefGPT - AI 论文速递 ·

本研究使用基于3D nnU-Net的深度学习方法进行医学图像分割，并与传统2D和循环分割方法进行比较。在私人数据集CARDINAL上测试结果显示，该方法在时序一致性和跨数据集泛化性方面具有优势，有望成为临床工具的首选。

我们提出了一种新颖的零样条移动物体轨迹控制框架Motion-Zero，通过提供基于位置的先验来改善移动物体的外观稳定性和位置准确性，并利用U-net的注意力图在扩散模型的去噪过程中直接应用空间约束，从而进一步确保移动物体的位置和空间一致性，并通过引入移动注意力机制实现时序一致性的保证。这种方法可以灵活运用于各种最先进的视频扩散模型，无需任何训练过程，大量实验证明我们的方法可以控制物体的运动轨迹并生成高质量的视频。

Motion-Zero：基于扩散的视频生成中的零表示移动物体控制框架

BriefGPT - AI 论文速递 ·

本文介绍了一种基于多视图校准的多人3D姿势估计和跟踪方法，利用时序一致性来匹配先前构建的每个视图中的用2D姿势估计生成的3D骨架，并提出两种策略以实现更好的对应关系和3D重构。该方法在两个基准上取得了竞争性成果，并在Campus测试中取得了良好的结果。

多视角人物匹配与任意非标定相机网络下的三维姿态估计

BriefGPT - AI 论文速递 ·

本文提出了一个新的用于验证视频脸部年龄回溯效果的基线架构，并开发了三个新度量指标。实验证明，该方法在年龄转换和时序一致性方面优于现有方法。

视频面部年龄转换：朝着时间一致的面部年龄转换

BriefGPT - AI 论文速递 ·

该研究使用基于3D nnU-Net的深度学习方法进行医学图像分割，并与传统2D和循环分割方法进行比较。结果表明该方法在时序一致性和跨数据集泛化性方面具有优势，有望成为临床工具的首选。

基于语义感知的时间通道注意力在心脏功能评估中的应用

BriefGPT - AI 论文速递 ·

该研究使用3D nnU-Net深度学习方法进行医学图像分割，结果表明该方法在时序一致性和跨数据集泛化性方面具有优势，有望成为临床工具的首选。

基于图卷积网络实现稳健的心脏分割

BriefGPT - AI 论文速递 ·

本研究使用基于3D nnU-Net的深度学习方法进行医学图像分割，并与传统2D和循环分割方法进行比较。在私人数据集CARDINAL上测试结果显示，该方法在时序一致性和跨数据集泛化性方面表现优异，有望成为临床工具的首选。

基于运动模式的超声心动图射血分数预测

BriefGPT - AI 论文速递 ·

本研究使用基于3D nnU-Net的深度学习方法进行医学图像分割，并与传统2D和循环分割方法进行比较。测试结果显示该方法在时序一致性和跨数据集泛化性方面具有优势，有望成为临床工具的首选。

基于面板注意力的实时自动 M 模式心房超声测量

BriefGPT - AI 论文速递 ·

LongCat-Video 视频生成模型正式发布，探索世界模型的第一步

CVPR 2025｜视频抠图MatAnyone来了，一次指定全程追踪，发丝级还原

RelightVid: A Temporal Consistent Diffusion Model for Video Relighting

快手可灵凭什么频繁刷屏？揭秘背后三项重要研究

Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation

LatentSync: Lip Syncing Based on Audio-Conditioned Latent Diffusion Model

StereoCrafter-Zero: Zero-Shot Stereo Video Generation Without Paired Training Data

基于策略梯度的少样本学习视频到视频生成对抗网络

视频指南：通过教师指导无培训改善视频扩散模型

视频人脸修复方案：无需预对齐的解析引导时序一致性模型 PGTFormer

多视角姿态融合用于遮挡感知的3D人类姿态估计

深度学习在SCG信号中识别收缩复合波的跨数据集分析

Motion-Zero：基于扩散的视频生成中的零表示移动物体控制框架

多视角人物匹配与任意非标定相机网络下的三维姿态估计

视频面部年龄转换：朝着时间一致的面部年龄转换

基于语义感知的时间通道注意力在心脏功能评估中的应用

基于图卷积网络实现稳健的心脏分割

基于运动模式的超声心动图射血分数预测

基于面板注意力的实时自动 M 模式心房超声测量

LongCat-Video 视频生成模型正式发布，探索世界模型的第一步

CVPR 2025｜视频抠图MatAnyone来了，一次指定全程追踪，发丝级还原

RelightVid: A Temporal Consistent Diffusion Model for Video Relighting

快手可灵凭什么频繁刷屏？揭秘背后三项重要研究

Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation

LatentSync: Lip Syncing Based on Audio-Conditioned Latent Diffusion Model

StereoCrafter-Zero: Zero-Shot Stereo Video Generation Without Paired Training Data

基于策略梯度的少样本学习视频到视频生成对抗网络

视频指南：通过教师指导无培训改善视频扩散模型

视频人脸修复方案 ：无需预对齐的解析引导时序一致性模型 PGTFormer

多视角姿态融合用于遮挡感知的3D人类姿态估计

深度学习在SCG信号中识别收缩复合波的跨数据集分析

Motion-Zero：基于扩散的视频生成中的零表示移动物体控制框架

多视角人物匹配与任意非标定相机网络下的三维姿态估计

视频面部年龄转换：朝着时间一致的面部年龄转换

基于语义感知的时间通道注意力在心脏功能评估中的应用

基于图卷积网络实现稳健的心脏分割

基于运动模式的超声心动图射血分数预测

基于面板注意力的实时自动 M 模式心房超声测量

视频人脸修复方案：无需预对齐的解析引导时序一致性模型 PGTFormer