小红花·文摘

τ0-WM——智元的视频-动作世界模型：组合“遥操、umi、人类第一人称视角”数据，未来视觉Latent助力动作生成，然后重新加噪去噪，若自洽取表现最好者直接执行，否则模拟推演找出最佳视觉指引重新生成

结构之法算法之道 ·

$Fast-WAM——训练时保留视频联合训练(虽同时生成但动作token不看视频token)，在推理时则移除显式的未来视频生成，直接在单次前向中，依托得到的潜在世界表征KV Cache预测动作$

Fast-WAM——训练时保留视频联合训练(虽同时生成但动作token不看视频token)，在推理时则移除显式的未来视频生成，直接在单次前向中，依托得到的潜在世界表征KV Cache预测动作

结构之法算法之道 ·

DreamZero——同时统一预测未来视觉状态与动作的世界动作模型：解决当下VLA如果人类不示教则理论强但具体操作不强的弊病，且提升任务泛化、本体泛化

结构之法算法之道 ·

本研究提出了ProgGen模型，利用大型语言模型的归纳偏见，解决视频预测中动态描述模型的不足。该方法通过神经-符号的可解释状态集生成视频帧预测，尤其在复杂环境中表现优于现有技术，支持因果推理和可解释性。

Programmatic Video Prediction Using Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法PVDR，利用无标注视频数据进行强化学习预训练。通过视频预测任务，基于Transformer的CVAE学习视觉动态表示，从而提高政策学习效率。实验结果表明，PVDR显著改善了视频预训练效果。

用于高效策略学习的预训练视觉动态表示

BriefGPT - AI 论文速递 ·

本文介绍了一种新型动作条件视频预测模型，能够模拟物体运动并推广至新对象。研究使用了59,000个机器人交互数据集，实验结果表明该模型在视频预测方面优于现有方法。此外，提出了多种基于图神经网络和动态表示的技术，提升了机器人在动态场景中的操作能力和效率。

基于图神经动态建模的动态3D高斯跟踪

BriefGPT - AI 论文速递 ·

本研究提出了一种扩展的图像扩散模型，用于高保真度视频生成，结合文本条件生成和视频预测。通过轻量级模型和新策略，优化视频质量，显著优于传统生成对抗网络。研究回顾了视频扩散模型在生成、编辑和理解任务中的应用，并探讨了未来发展趋势。

OSV：一步即可生成高质量图像到视频

BriefGPT - AI 论文速递 ·

本研究提出了一种基于视频预测和深度强化学习的观察型模仿学习方法，能够从视频中学习机器人技能，如扫地和推物品。结合自然语言描述，提升了机器人在复杂环境中的操作能力。研究表明，该方法在多项任务中显著提高了成功率，并在真实世界中表现良好。

基于下一个令牌预测的上下文模仿学习

BriefGPT - AI 论文速递 ·

该研究提出了一种新方法“空间和时间的视频外推”，结合自我监督学习和视频预测，提升了在真实环境中的表现。通过解耦3D结构和相机姿态，该方法实现了新视角合成和相机姿态估计，展现出更高的视觉质量和准确性。

通过解耦的三维场景表示预测未来视角的视频

BriefGPT - AI 论文速递 ·

本文介绍了GazeMoDiff、Motion-Zero和MoDiff等新型运动生成模型，旨在提高视频中人体动作的预测和控制精度。这些模型结合时空特征、注意力机制和无监督学习，生成高质量、自然的运动序列，适用于虚拟现实和视频编辑任务。

猿猴仿效：利用自注意力在运动扩散中实现零样本运动转移

BriefGPT - AI 论文速递 ·

本文介绍了第一个大规模自动驾驶视频预测模型GenAD，该模型通过网络数据和文本描述提升了泛化能力。在多种行驶场景中，GenAD能够生成长达25分钟的视频，并在多个数据集上取得优异成绩，展示了其在实际应用中的巨大潜力。

通过可控的长视频生成释放自主驾驶的泛化能力

BriefGPT - AI 论文速递 ·

本文提出了一种面向视频中长期动作预测的物体中心表示，利用视觉-语言预训练模型提取特定表示。通过双重注意力网络识别人-物交互，并在多个基准测试中验证了其有效性。该模型实现了动作的同时识别和弱空间时间定位，展现了良好的性能。

目标中心动作识别的同时检测和交互推理

BriefGPT - AI 论文速递 ·

本文介绍了一种新型视频预测模型，基于残差更新规则，能够有效处理复杂数据集并显著提升预测性能。该模型通过分解视频的运动和内容信息，增强了表达能力和随机性学习能力，能够在长时间范围内生成复杂场景结构和运动，预测效果优于现有方法。

V-JEPA：迈向 Yann LeCun 先进机器智能（AMI）愿景的新里程碑 [译]

宝玉的分享 ·

本文介绍了几种学习视频压缩的方法，包括基于空间分解和时间融合的帧间预测方法、基于联合时空相关性探索的学习型视频压缩、基于时空变换器的视频压缩框架、基于时间上下文挖掘的学习视频压缩、无监督视频分解基于时空迭代推理、通用学习视频压缩、利用基于块运动的特征插值进行视频快速语义分割、分布式编码架构的低复杂度深度视频压缩、使用多域层次约束进行深度参考生成的视频帧间预测、基于动画的视频压缩的预测编码、探究时空多频分析用于实现高保真度和时空一致性的视频预测。

基于空间分解和时间融合的基于学习的视频压缩的帧间预测

BriefGPT - AI 论文速递 ·

本文提出了一种新的变分框架，用于推断由分数布朗运动驱动的随机微分方程。通过结合SDEs和变分方法的推断能力，使用随机梯度下降学习代表性函数分布，并使用神经网络学习变分后验中的漂移、扩散和控制项，实现了神经-SDEs的变分训练。同时，优化了Hurst指数，控制分数噪声的性质，并提出了一种用于变分潜在视频预测的新型架构。