小红花·文摘

深度估计准确率冲上0.9，Meta提出VLM³，论证视觉模型天生会学3D，以Qwen3-VL-4B为基础实现多任务的统一建模

HyperAI超神经 ·

本研究提出EgoDTM模型，解决自我中心视频语言预训练中缺乏三维理解的问题。该模型结合大规模3D视频预训练与视频-文本对比学习，通过轻量级三维解码器高效学习三维感知。实验结果表明，EgoDTM在多项任务中表现优异，展现出卓越的3D视觉理解能力。

EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining

BriefGPT - AI 论文速递 ·

该研究提出了综合连续场景图生成数据集，探索现有方法在学习新对象时的保留情况，并引入新的图卷积网络以解决图像遮挡问题。研究还提出了统一框架OvSGTR和基于因果推断的对象关系预测方法，显著提升了场景图生成性能。此外，开发了图像到文本模型，降低了构建成本，并提出了基于场景图的三维理解方法和开放词汇生成框架。

大规模遥感卫星影像中场景图生成：一个大样本数据集与上下文感知方法

BriefGPT - AI 论文速递 ·

本文介绍了一种新的自监督表征学习方法，通过结合有区分度的自监督特征和三维理解，以及弱几何球面先验，来提取具有挑战性的图像特征。该方法在训练过程中注入了信息丰富的几何先验，能够更好地考虑重复部分和对称性误差。实验结果表明，该方法在区分对称视图和重复部分方面表现出色，并且能够推广到未见类别的数据集上。

利用视点引导的球面映射改善语义对应

BriefGPT - AI 论文速递 ·