小红花·文摘

$VisualMimic——基于视觉的人形行走-操作控制：低层策略负责平衡控制且跟踪高层下发的指令、高层策略则基于自我中心视觉输入以生成任务跟踪指令$

VisualMimic——基于视觉的人形行走-操作控制：低层策略负责平衡控制且跟踪高层下发的指令、高层策略则基于自我中心视觉输入以生成任务跟踪指令

结构之法算法之道 ·

全身条件自我中心视频预测

The Berkeley Artificial Intelligence Research Blog ·

EgoDex：从大规模自我中心视频中学习灵巧操作

Apple Machine Learning Research ·

利用多模态大语言模型推进自我中心视频问答

Apple Machine Learning Research ·

MM-Ego：构建自我中心多模态大语言模型的探索

Apple Machine Learning Research ·

本研究评估了多模态大语言模型在自我中心视频问答中的表现，特别是针对长时间跨度推理和第一人称视角的挑战。引入的QaEgo4Dv2数据集显示，微调后的Video-LLaVa-7B和Qwen2-VL-7B-Instruct在问答任务中表现优异，提升了准确性，并指明了未来改进方向。

利用多模态大语言模型推动自我中心视频问答的进展

BriefGPT - AI 论文速递 ·

本研究提出了EgoToM，这是一个新的视频问答基准，旨在将心智理论（ToM）评估扩展到自我中心领域。通过使用因果ToM模型，我们生成了用于Ego4D数据集的多选视频问答实例，评估对摄像机佩戴者目标、信念和下一步动作的预测能力。研究发现，尽管多模态大型语言模型（MLLMs）在从自我中心视频中推断目标时接近人类水平，但在推断佩戴者的即时信念状态和最符合未观视频未来的未来动作时，仍低于人类表现。

从自我中心视频评估心智理论推理的基准 EgoToM

BriefGPT - AI 论文速递 ·

本研究探讨了自我中心视觉理解的挑战与发展趋势，分类了受体理解、物体理解、环境理解和混合理解等任务，并指出其在增强现实和虚拟现实中的潜在应用影响。

自我中心视觉的挑战与趋势：一项调查

BriefGPT - AI 论文速递 ·

本研究解决了机器人学习领域中数据稀缺的问题，特别是在安全关键的外科应用中获取高质量数据的挑战。提出的dARt Vinci系统通过增强现实手部追踪和高保真物理引擎捕获微小操作，使得数据收集更加灵活和高效，最终实验结果显示数据吞吐量平均提高41%，总实验时间减少10%。

dARt Vinci：用于外科机器人学习的自我中心数据收集

BriefGPT - AI 论文速递 ·

ARMOR：人形机器人碰撞避免与运动规划的自我中心感知

Apple Machine Learning Research ·

本研究推出EgoVid-5M数据集，包含500万段自我中心视频及详细动作注释，旨在提升视频生成效果，推动虚拟现实等应用领域的发展。

EgoVid-5M：用于自我中心视频生成的大规模视频动作数据集

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过稀疏观察数据有效估计摄像头佩戴者的身体运动，开发了两阶段方法，并验证了其在不同设置和数据集上的有效性。

从双重稀疏的自我中心视频数据中估计自我身体姿态

BriefGPT - AI 论文速递 ·

本文介绍了EgoTaskQA基准及其在视频理解中的应用，提出了多任务学习方法EgoT2，以提升视频推理模型的性能。同时，研究开发了EmbodiedGPT和EgoPlan-Bench，探索多模态模型在特定任务中的潜力。通过EVUD数据集训练的AlanaVLM在视频问答任务中表现优异，推动了自我中心视频理解的发展。

VidEgoThink：评估具身智能的自我中心视频理解能力

BriefGPT - AI 论文速递 ·

本研究解决了自我中心视频中物体定位和追踪的准确性问题，由于观角的多样性，该领域面临重大挑战。论文提出了一种新颖的零样本方法Ego3DT，通过提取物体检测和分割信息，并利用相邻视频帧构建3D场景，从而实现了高效稳定的3D追踪轨迹。实验结果显示，在两个新生成的数据集上，方法的表现提高了1.04倍至2.90倍，证明了其在不同自我中心场景中的鲁棒性和准确性。

Ego3DT：在自我中心视频中追踪每个3D物体

BriefGPT - AI 论文速递 ·

本文介绍了多种自我中心视频理解的方法和模型，如EgoInstructor、MiDl和EAGLE，旨在提升第一人称视频的字幕生成和任务识别性能。研究利用新数据集和创新算法，在多个基准测试中表现优越，为未来视觉-语言模型的发展奠定基础。

MM-Ego：构建自我中心多模态大型语言模型

BriefGPT - AI 论文速递 ·

本文介绍了异构记忆网络（HMNs）在长期对话中的应用，解决了现有对话模型在记忆和理解方面的不足。研究提出了新框架和数据集，如PLATO-LTM和Conversation Chronicles，以提升对话的一致性和人类参与度。通过MemoryBank和CREEM等机制，增强了聊天机器人的记忆能力和情感支持，并提出了基于认知科学的评估框架MemBench，展示了对话系统的改进空间。