小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
VisualMimic——基于视觉的人形行走-操作控制:低层策略负责平衡控制且跟踪高层下发的指令、高层策略则基于自我中心视觉输入以生成任务跟踪指令

本文讨论了VisualMimic框架在类人机器人行走与操作中的应用,通过分层设计提升强化学习的泛化能力。该框架结合低层关键点跟踪与高层视觉运动策略,使机器人在真实环境中执行多样化任务,展现出良好的鲁棒性和适应性。研究强调自我中心视觉感知与全身灵巧性的结合,推动了人形机器人在物体交互方面的进展。

VisualMimic——基于视觉的人形行走-操作控制:低层策略负责平衡控制且跟踪高层下发的指令、高层策略则基于自我中心视觉输入以生成任务跟踪指令

结构之法 算法之道
结构之法 算法之道 · 2025-09-28T14:32:19Z
全身条件自我中心视频预测

本文介绍了一种名为PEVA的模型,该模型通过学习身体关节的运动轨迹来预测自我中心视频,能够生成复杂的动作视频并支持长时间预测。PEVA在真实场景中表现优异,能够模拟人类的目标导向行为,但在规划和任务意图理解方面仍存在局限。未来研究将着重提升模型的互动性和任务导向能力。

全身条件自我中心视频预测

The Berkeley Artificial Intelligence Research Blog
The Berkeley Artificial Intelligence Research Blog · 2025-07-01T09:00:00Z
EgoDex:从大规模自我中心视频中学习灵巧操作

模仿学习在操作中面临数据稀缺问题,现有数据集如Ego4D缺乏手势标注。为此,我们使用Apple Vision Pro收集了EgoDex,这是最大的人类灵巧操作数据集,包含829小时自我中心视频和3D手指追踪数据,涵盖194种日常操作任务。我们在该数据集上训练和评估了模仿学习策略,以推动机器人和计算机视觉的发展。

EgoDex:从大规模自我中心视频中学习灵巧操作

Apple Machine Learning Research
Apple Machine Learning Research · 2025-07-01T00:00:00Z
利用多模态大语言模型推进自我中心视频问答

本文评估了多模态大语言模型在Egocentric视频问答中的表现,使用QaEgo4Dv2数据集。研究发现,经过微调的Video-LLaVa-7B和Qwen2-VL-7B-Instruct在OpenQA和CloseQA中表现优异,超越了之前的基准。然而,模型在空间推理和细粒度物体识别方面仍存在困难。

利用多模态大语言模型推进自我中心视频问答

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-30T00:00:00Z
MM-Ego:构建自我中心多模态大语言模型的探索

本研究构建了多模态基础模型以理解自我中心视频,自动生成了700万高质量问答样本,并建立了629个视频和7026个问题的基准,以评估模型识别视觉细节的能力。提出了一种新颖的“记忆指针提示”机制,以提高模型对视频内容的理解效率。

MM-Ego:构建自我中心多模态大语言模型的探索

Apple Machine Learning Research
Apple Machine Learning Research · 2025-04-11T00:00:00Z

本研究评估了多模态大语言模型在自我中心视频问答中的表现,特别是针对长时间跨度推理和第一人称视角的挑战。引入的QaEgo4Dv2数据集显示,微调后的Video-LLaVa-7B和Qwen2-VL-7B-Instruct在问答任务中表现优异,提升了准确性,并指明了未来改进方向。

利用多模态大语言模型推动自我中心视频问答的进展

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-06T00:00:00Z

本研究提出了EgoToM,这是一个新的视频问答基准,旨在将心智理论(ToM)评估扩展到自我中心领域。通过使用因果ToM模型,我们生成了用于Ego4D数据集的多选视频问答实例,评估对摄像机佩戴者目标、信念和下一步动作的预测能力。研究发现,尽管多模态大型语言模型(MLLMs)在从自我中心视频中推断目标时接近人类水平,但在推断佩戴者的即时信念状态和最符合未观视频未来的未来动作时,仍低于人类表现。

从自我中心视频评估心智理论推理的基准 EgoToM

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-28T00:00:00Z

本研究探讨了自我中心视觉理解的挑战与发展趋势,分类了受体理解、物体理解、环境理解和混合理解等任务,并指出其在增强现实和虚拟现实中的潜在应用影响。

自我中心视觉的挑战与趋势:一项调查

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z

本研究解决了机器人学习领域中数据稀缺的问题,特别是在安全关键的外科应用中获取高质量数据的挑战。提出的dARt Vinci系统通过增强现实手部追踪和高保真物理引擎捕获微小操作,使得数据收集更加灵活和高效,最终实验结果显示数据吞吐量平均提高41%,总实验时间减少10%。

dARt Vinci:用于外科机器人学习的自我中心数据收集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-07T00:00:00Z
ARMOR:人形机器人碰撞避免与运动规划的自我中心感知

人形机器人在感知和运动规划方面存在明显不足。为此,我们提出了ARMOR系统,结合可穿戴深度传感器,提升空间意识和运动规划能力。通过模拟训练的模仿学习策略,ARMOR在动态避障中减少了63.7%的碰撞,成功率提高了78.7%。与传统方法相比,ARMOR在真实环境中表现更佳。

ARMOR:人形机器人碰撞避免与运动规划的自我中心感知

Apple Machine Learning Research
Apple Machine Learning Research · 2025-02-13T00:00:00Z

本研究推出EgoVid-5M数据集,包含500万段自我中心视频及详细动作注释,旨在提升视频生成效果,推动虚拟现实等应用领域的发展。

EgoVid-5M:用于自我中心视频生成的大规模视频动作数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-13T00:00:00Z

本研究提出了一种新方法,通过稀疏观察数据有效估计摄像头佩戴者的身体运动,开发了两阶段方法,并验证了其在不同设置和数据集上的有效性。

从双重稀疏的自我中心视频数据中估计自我身体姿态

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-05T00:00:00Z

本文介绍了EgoTaskQA基准及其在视频理解中的应用,提出了多任务学习方法EgoT2,以提升视频推理模型的性能。同时,研究开发了EmbodiedGPT和EgoPlan-Bench,探索多模态模型在特定任务中的潜力。通过EVUD数据集训练的AlanaVLM在视频问答任务中表现优异,推动了自我中心视频理解的发展。

VidEgoThink:评估具身智能的自我中心视频理解能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-15T00:00:00Z

本研究解决了自我中心视频中物体定位和追踪的准确性问题,由于观角的多样性,该领域面临重大挑战。论文提出了一种新颖的零样本方法Ego3DT,通过提取物体检测和分割信息,并利用相邻视频帧构建3D场景,从而实现了高效稳定的3D追踪轨迹。实验结果显示,在两个新生成的数据集上,方法的表现提高了1.04倍至2.90倍,证明了其在不同自我中心场景中的鲁棒性和准确性。

Ego3DT:在自我中心视频中追踪每个3D物体

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-11T00:00:00Z

本文介绍了多种自我中心视频理解的方法和模型,如EgoInstructor、MiDl和EAGLE,旨在提升第一人称视频的字幕生成和任务识别性能。研究利用新数据集和创新算法,在多个基准测试中表现优越,为未来视觉-语言模型的发展奠定基础。

MM-Ego:构建自我中心多模态大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

本文介绍了异构记忆网络(HMNs)在长期对话中的应用,解决了现有对话模型在记忆和理解方面的不足。研究提出了新框架和数据集,如PLATO-LTM和Conversation Chronicles,以提升对话的一致性和人类参与度。通过MemoryBank和CREEM等机制,增强了聊天机器人的记忆能力和情感支持,并提出了基于认知科学的评估框架MemBench,展示了对话系统的改进空间。

混合会话与自我中心记忆

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-03T00:00:00Z

该研究探讨了利用自监督学习和IMU传感器捕捉人类与狗的视角视频,以识别自传活动。提出了多模态数据集和基于递归神经网络的方法,旨在提高物体操纵行为的预测精度。此外,研究介绍了EgoGen合成数据生成器,以提供真实数据,解决增强现实中的人类运动模拟挑战。

HEADS-UP:用于盲人辅助系统的头戴式自我中心数据集以实现轨迹预测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-30T00:00:00Z

本文探讨了可穿戴摄像机在手部动作识别中的应用,提出了多种手部检测和分割方法,利用图像识别技术提高手部功能评估的准确性。研究表明,结合2D手势姿态和物体姿态信息,能够有效实现自我中心动作识别,推动虚拟康复计划的发展。

REST-HANDS:使用智能眼镜进行中风康复的自我中心视觉治疗手部功能

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-30T00:00:00Z
周报 #73 - 《社交网络》、Ego 与中秋的现充生活

这篇文章记录了作者对生活和写代码的思考,提到了受影响的电影/剧集和自我中心的一面。作者计划在公司的黑客松中调整自己的行为,并分享了中秋节生活和关于RSS的想法。

周报 #73 - 《社交网络》、Ego 与中秋的现充生活

Pseudoyu
Pseudoyu · 2024-09-17T19:00:00Z

本研究提出了AMEGO方法,用于改善自我中心视频的理解。该方法通过构建自包含表征来捕捉关键位置和对象交互,并实现了对视频的多重查询。实验结果显示AMEGO在新引入的主动记忆基准上表现优异。

AMEGO:来自长时自我中心视频的主动记忆

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-17T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码