小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
标准智能:在像素空间中训练通用智能

标准智能公司正在探索通过视频数据训练通用智能代理的可能性。他们的模型分析计算机使用的原始视频数据,以预测鼠标移动和点击等操作。创始人Galen Mead和Devansh Pandey致力于安全实现AGI,团队以创新和技术勇气著称。

标准智能:在像素空间中训练通用智能

Sequoia Capital US/Europe
Sequoia Capital US/Europe · 2026-04-30T14:00:29Z
演讲:如何在数PB的自动驾驶数据中解锁洞察力和实现发现

自动驾驶面临边缘案例挑战,这些罕见场景常被忽视。Kyra Mozley介绍了Perception 2.0,通过基础模型和嵌入技术提升视频数据理解,简化数据标注,增强模型灵活性和准确性。新方法支持自然语言搜索和分类,快速识别复杂场景,提高安全性和可靠性。

演讲:如何在数PB的自动驾驶数据中解锁洞察力和实现发现

InfoQ
InfoQ · 2026-01-21T15:13:00Z
人工智能驱动的视频编解码技术解析 | 灯塔智库

视频数据快速增长推动编解码技术进步,人工智能提升了视频压缩效率,克服了传统编码的局限。未来,视频编解码将朝智能化、语义化和可持续发展方向发展。

人工智能驱动的视频编解码技术解析 | 灯塔智库

实时互动网
实时互动网 · 2025-12-03T03:17:31Z

Meta发布的V-JEPA 2世界模型能够在62小时内训练机器人,使其理解物理世界并进行预测与规划。该模型通过自监督学习,利用大量视频数据提升机器人控制能力,标志着机器人技术的新纪元。

LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代

量子位
量子位 · 2025-06-12T08:48:48Z

本文介绍了「七月在线」开发的NaVILA框架,旨在提升腿式机器人在视觉与语言导航中的能力。NaVILA将高级语言指令转化为中级动作,并结合低级运动策略,提高了导航效率。该框架利用真实视频数据训练,显著提升了机器人在复杂环境中的成功率,展现了广泛的应用潜力。

NaVILA——可语音交互的用于四足和人形导航与避障的VLA模型:在VLM的导航规划下,执行基于视觉的运动策略(含NaVILA和rsl_rl的源码解析)

结构之法 算法之道
结构之法 算法之道 · 2025-04-15T09:49:10Z

本研究提出了一种基于视频数据的价值函数,旨在解决在线强化学习中稀疏奖励导致的反馈不足问题。该方法利用多样的数据源,展现出良好的迁移效果和泛化能力,有望提升在线强化学习的效果与效率。

ViVa: Video-Trained Value Functions for Guiding Online Reinforcement Learning from Diverse Data

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-23T00:00:00Z

本研究提出了一种新颖的非侵入性方法,利用多模态预测模型整合RGB和热成像视频数据与患者元数据,显著提高了远程肺活量测定的准确性,达到92%和99.5%。

PulmoFusion: Promoting Lung Health through Efficient Multimodal Integration

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-29T00:00:00Z
英伟达神秘视频基础模型「Cosmos」曝光,数据全靠偷

英伟达正在从YouTube和其他来源抓取视频数据,用于AI产品的训练。员工被要求从Netflix、YouTube和其他来源抓取视频,以训练AI模型。英伟达使用了开源的YouTube视频下载器,并使用了20到30台虚拟机每天下载相当于80年的视频。英伟达似乎不在意法律问题,员工被告知已获得公司最高层的批准。此外,他们还购买了800万支YouTube视频,并通过谷歌云下载。这些行为可能涉及版权问题。

英伟达神秘视频基础模型「Cosmos」曝光,数据全靠偷

机器之心
机器之心 · 2024-08-06T06:12:40Z

该研究提出了一个用于低地球轨道卫星的三维重建框架,通过利用小型业余望远镜捕获的视频数据。该框架包括预处理流程和改进的三维高斯光滑算法,能够产生精细的三维点云。通过实际观测验证,该方法在重建三维空间目标方面具有显著优势。

从业余望远镜图像中三维重建卫星

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-29T00:00:00Z
Llama 3 开启规模游戏的下一篇章(译)

文本数据扩展达瓶颈,下一步发展集中在视频-语言生成建模和迭代强化学习。Llama 3性能不错,但推理能力需扩大强化学习规模。视频数据可改善模型与现实世界联系。

Llama 3 开启规模游戏的下一篇章(译)

莫尔索
莫尔索 · 2024-04-23T03:00:00Z

我们使用深度学习预测足球犯规,结合视频数据、边界框位置、图像细节和姿势信息,利用卷积和循环神经网络,模型优于其他模型。研究结果对于理解足球比赛中的犯规行为具有重要意义,并为未来研究提供参考。

基于 CNN 的桌上足球游戏状态检测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-08T00:00:00Z

本文提出了一种用于无监督特征学习的视频数据的强基线模型,通过学习预测输入视频序列中缺少的帧或外推未来帧,该模型发现了对于表示复杂变形和运动模式有用的空间和时间相关性,并且是借鉴语言建模文献,通过将图像补丁的空间量化为一个大字典,适应了视觉领域。我们在填充和生成任务上演示了该方法。第一次,我们展示了在自然视频上训练后,这样一个模型可以预测短视频序列中的非平凡运动。

以视频为新语言进行现实世界决策

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-27T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码