小红花·文摘

本研究提出了一种基于单目视频的乒乓球击球预测系统，解决了现有系统的有效性问题。通过三维重建和控制器设计，实验表明在高速击球情况下回球率从49.9%提高到59.0%，显示出良好的应用潜力。

LATTE-MV: Learning to Predict Table Tennis Hits from Monocular Videos

BriefGPT - AI 论文速递 ·

自OpenAI推出Sora以来备受关注的文生视频概念及应用。DiT是一个文生图模型，将U-Net架构替换为Transformer架构。上海人工智能实验室开源了全球首个文生视频DiT：Latte，可自由部署。Latte通过预训练的变分自编码器将视频编码为特征，并利用Transformer结构进行编码和解码，生成连续、逼真的视频内容。Latte的研发团队与中央广播电视总台合作推出了中国原创文生视频动画。文生视频应用有望加速落地，推动影视行业的革命性发展。

在线教程丨与 Sora 技术路线相似！全球首个开源文生视频 DiT 模型 Latte 一键部署

HyperAI超神经 ·

上海人工智能实验室推出了类sora开源系统Latte，将DiT和U-ViT架构应用于视频生成领域。Latte使用潜在扩散模型进行扩散和去噪过程，通过预训练的变分自动编码器将视频帧压缩到潜在空间中，并在潜在空间中进行扩散过程。Latte的主干网络有四种变体，分别是空间和时间交替进行、先空间再时间、空间和时间统一、空间和时间分开。Latte的输出是预测的噪声和协方差。Open-Sora 1.0是基于STDiT架构的类Sora模型，使用PixArt-α作为基座，并引入时间注意力层。Open-Sora的训练复现方案包括三个阶段：大规模图像预训练、大规模视频预训练和微调。数据预处理脚本可降低复现门槛。

视频生成Sora的从零复现：从Latte、Open-Sora(含1.0及其升级版)到StreamingT2V

结构之法算法之道 ·