小红花·文摘

本研究提出EgoDTM模型，解决自我中心视频语言预训练中缺乏三维理解的问题。该模型结合大规模3D视频预训练与视频-文本对比学习，通过轻量级三维解码器高效学习三维感知。实验结果表明，EgoDTM在多项任务中表现优异，展现出卓越的3D视觉理解能力。

BriefGPT - AI 论文速递 ·

本文介绍了一种多模态方法，通过音频和视觉信息提升厨房环境中的动作识别性能，动词分类上实现了5.18%的改进。同时，提出了自我中心视频-语言预训练方法和高效闭环视频模型训练方法，展示了在不同任务中的优异表现，为构建高效的视觉-语言模型和机器人助手奠定了基础。

BriefGPT - AI 论文速递 ·