小红花·文摘

Robo.ai宣布收购数据处理和压缩技术公司Neurovia，为机器经济构建数据基础设施

实时互动网 ·

标准智能：在像素空间中训练通用智能

Sequoia Capital US/Europe ·

演讲：如何在数PB的自动驾驶数据中解锁洞察力和实现发现

InfoQ ·

人工智能驱动的视频编解码技术解析 | 灯塔智库

实时互动网 ·

Meta发布的V-JEPA 2世界模型能够在62小时内训练机器人，使其理解物理世界并进行预测与规划。该模型通过自监督学习，利用大量视频数据提升机器人控制能力，标志着机器人技术的新纪元。

LeCun世界模型出2代了！62小时搞定机器人训练，开启物理推理新时代

量子位 ·

本文介绍了「七月在线」开发的NaVILA框架，旨在提升腿式机器人在视觉与语言导航中的能力。NaVILA将高级语言指令转化为中级动作，并结合低级运动策略，提高了导航效率。该框架利用真实视频数据训练，显著提升了机器人在复杂环境中的成功率，展现了广泛的应用潜力。

NaVILA——可语音交互的用于四足和人形导航与避障的VLA模型：在VLM的导航规划下，执行基于视觉的运动策略(含NaVILA和rsl_rl的源码解析)

结构之法算法之道 ·

本研究提出了一种基于视频数据的价值函数，旨在解决在线强化学习中稀疏奖励导致的反馈不足问题。该方法利用多样的数据源，展现出良好的迁移效果和泛化能力，有望提升在线强化学习的效果与效率。

ViVa: Video-Trained Value Functions for Guiding Online Reinforcement Learning from Diverse Data

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的非侵入性方法，利用多模态预测模型整合RGB和热成像视频数据与患者元数据，显著提高了远程肺活量测定的准确性，达到92%和99.5%。

PulmoFusion: Promoting Lung Health through Efficient Multimodal Integration

BriefGPT - AI 论文速递 ·

英伟达神秘视频基础模型「Cosmos」曝光，数据全靠偷

机器之心 ·

本文介绍了一种通过野外视频数据重建手持物体三维形状的方法，该方法利用三维监督信号和数据驱动的形状先验进行训练。研究表明，在没有直接三维监督的情况下，该方法能够有效预测真实世界中的手持物体形状。

野外单眼人体物体重建

BriefGPT - AI 论文速递 ·

本研究探讨了动态生成模型在视频数据中的应用，提出了基于变换的网络架构和Rough Transformer，以提高长程依赖建模的效率。研究表明，Rough Transformer在时间序列任务中优于传统模型，且计算成本显著降低。此外，AMLNet和GAT-GAN在需求预测和长时间序列生成中也表现出色。

序列建模用交流发电机

BriefGPT - AI 论文速递 ·

Llama 3 开启规模游戏的下一篇章（译）

莫尔索 ·

本文探讨了利用视频数据和深层迁移学习对睡眠进行分类的方法，准确率达到73.4%。同时，提出了基于事件相机的数据处理策略，提升了物体识别和活动识别的性能，展示了事件数据在高动态范围和低延迟条件下的优势。

EventSleep: 使用事件相机进行睡眠活动识别

BriefGPT - AI 论文速递 ·

本文提出了一种用于无监督特征学习的视频数据的强基线模型，通过学习预测输入视频序列中缺少的帧或外推未来帧，该模型发现了对于表示复杂变形和运动模式有用的空间和时间相关性，并且是借鉴语言建模文献，通过将图像补丁的空间量化为一个大字典，适应了视觉领域。我们在填充和生成任务上演示了该方法。第一次，我们展示了在自然视频上训练后，这样一个模型可以预测短视频序列中的非平凡运动。

以视频为新语言进行现实世界决策

BriefGPT - AI 论文速递 ·