小红花·文摘

第5章：工具篇——使用小云雀Agent生成短剧

王欣的博客 ·

视频动态字幕合成使用方法

Raz1ner ·

滚动字幕视频合成使用方法

Raz1ner ·

macOS 录屏软件开发实录：从像素抓取到元数据重现

肘子的Swift记事本 ·

探索 GPUImage 音视频技术（17）：高级视频技术

实时互动网 ·

本研究提出了ManipDreamer，通过引入动作树和视觉引导，显著提升了机器人操控视频合成中的指令跟随和视觉质量。

ManipDreamer: Enhancing Robotic Manipulation World Models through Action Trees and Visual Guidance

BriefGPT - AI 论文速递 ·

本研究提出了TaylorSeer方法，以解决扩散变换器的高计算需求问题。该方法通过泰勒级数近似特征高阶导数，显著提升了图像和视频合成的效率，尤其在高加速比下实现了近乎无损的加速效果。

From Reuse to Prediction: Accelerating Diffusion Models with TaylorSeer

BriefGPT - AI 论文速递 ·

本研究提出了一种高效灵活的视频合成框架，利用现代图像生成技术解决动态物体生成问题。通过扩展图像扩散模型，实现高保真度视频生成，并引入摄像机运动控制方法，提升视频生成的可控性和质量。实验结果表明，该方法在生成长时间视频和动态内容方面表现优异。

重新捕捉：通过掩蔽视频微调为用户提供的视频生成可控视频摄像机控制

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法RL-V2V-GAN，旨在解决视频到视频合成中的有限标记数据问题。该方法通过增强学习实现源视频到目标视频的映射，同时保持源视频的风格。实验结果表明，在少样本学习条件下，该方法能够生成时序一致的视频。

Few-Shot Learning Video-to-Video Generative Adversarial Network Based on Policy Gradient

BriefGPT - AI 论文速递 ·

本文介绍了一种新型的单目摄像机建模方法，神经运动一致流，旨在优化动态场景的渲染误差。研究提出LEMO方法，通过自监督学习恢复高质量3D人体运动，并引入运动平滑性先验以减少姿态抖动。此外，DiffPose和MotionZero结合运动先验和条件模型，提升人体姿势估计和视频合成效果。RoHM方法在噪声和遮挡条件下实现鲁棒的3D运动重建，MCM通过分离运动和外观学习改善视频质量。

COIN：用于人类和摄像机运动估计的控制重建扩散先验

BriefGPT - AI 论文速递 ·

本研究提出了一种高效的视频合成方法，利用条件图像扩散模型实现时间一致的合成到真实视频转换，保持时空一致性。通过光流信息和联合噪声优化，减少时空不一致性，实验结果表明该方法在视觉质量和一致性方面优于其他基线方法。

TC-PDM：用于红外到可见视频转换的时间一致性补丁扩散模型

BriefGPT - AI 论文速递 ·

该研究提出了HeartBeat框架，用于高保真度的超声心动图视频合成。通过多模态条件感知和两阶段训练，简化模型训练，提升生成视频的真实感和连贯性。实验证明其在心脏疾病诊断中的有效性，尤其在主动脉瓣狭窄检测中表现优异。

可解释和可控的运动曲线引导心脏超声视频生成

BriefGPT - AI 论文速递 ·

Blink，精彩时刻一网打尽

The Verge ·

本文探讨了潜在一致性模型（LCMs）在高分辨率图像合成中的应用，通过改进采样过程和引入新方法（如TCD和LCD），显著提高了图像生成质量和效率。提出的VideoLCM框架实现了高保真度视频合成，计算效率高。此外，研究还提出了阶段一致性模型（PCM），在多步细化任务上表现优异，适用于视频生成。

MLCM: 多步一致性蒸馏的潜态扩散模型

BriefGPT - AI 论文速递 ·

MotionCrafter是一种新型的动作定制方法，通过并行时空架构注入参考动作，增强动作与外观的解耦。研究提出个性化的姿态估计器，显著提升视频中的姿态标注精度，并在视频合成中处理异常数据，保持外观一致性，表现优于现有技术。

PoseCrafter：灵活姿态的一次性个性化视频合成

BriefGPT - AI 论文速递 ·

DeepFaceFlow 是一种基于 3D 的深度学习框架，能够从单目图像中快速准确捕捉面部运动，应用于面部表情识别。该方法结合了遮挡感知和 3D 损失函数，优于现有技术，适用于视频合成。研究还提出了多种重建 3D 人脸结构的方法，处理极端姿势和光照变化，提升了重建精度和速度。

通过迭代稠密 UV 至图像流实现的二维视频三维人脸追踪

BriefGPT - AI 论文速递 ·

本文提出了 StyLandGAN 框架，利用深度图像合成生成多样的深度地图，表现优于现有模型。同时，研究探讨了基于 StyleGAN 的视频合成和面部编辑技术，展示了高质量生成和灵活控制的优势。

StyleCineGAN：使用预训练的 StyleGAN 生成景观动态照片

BriefGPT - AI 论文速递 ·

本文介绍了一种新方法SCNet，基于卷积神经网络进行几何模型的语义匹配，表现优异。同时提出了VideoLCM框架，通过一致性模型高效合成视频，仅需四个采样步骤即可实现高保真度，展示了实时合成的潜力。

确定性几何模型拟合的潜在语义一致性

BriefGPT - AI 论文速递 ·

本研究提出了一种高效有效的方法，通过利用条件图像扩散模型实现长度可变视频中时间一致的合成到真实视频转换，同时保持视频的时空一致性。方法通过联合噪声优化最小化时空不一致性，实现对多个合成图像生成的平行化。实验证明了该方法的有效性，并且不需要对扩散模型进行培训或微调。方法在时空一致性和视觉质量方面优于其他基线方法。

UniCtrl：通过无需训练的统一注意力控制提升文本到视频扩散模型的时空一致性

BriefGPT - AI 论文速递 ·

Google Lumiere通过时空U-Net架构改变了AI视频游戏，解决了视频合成中的关键挑战。该模型可以生成逼真、多样和连贯的运动，用于视频编辑、图像到视频转换、风格化生成和文本转视频等任务。

lumiere：用于生成真实视频的时空扩散模型

极道 ·