小红花·文摘

在线教程丨香港科技大学团队开源首个确定性视频深度框架DVD，零样本刷新 SOTA

HyperAI超神经 ·

蚂蚁灵波科技开源了LingBot-Depth模型，提升机器人和自动驾驶的三维视觉能力。该模型利用“掩码深度建模”技术，解决透明和反光物体的深度感知问题，显著提高深度图的完整性和清晰度。

让机器人“看清”三维世界，蚂蚁灵波开源LingBot-Depth模型

量子位 ·

本研究提出了一种名为Ross3D的重构视觉指令调优方法，旨在解决大规模三维视觉-语言数据集的缺乏问题。该方法通过三维视觉监督，提升了三维场景理解的性能，并展示了未标记三维数据的潜力。

Ross3D: Reconstructive Visual Instruction Tuning with 3D Awareness

BriefGPT - AI 论文速递 ·

本研究分析了扩散模型在三维视觉中的应用，解决了效率和可扩展性的问题，尤其是提升了从二次数据恢复三维场景的准确性。通过优化计算效率和大规模预训练，显著提升了三维视觉任务的表现。

Diffusion Models in 3D Vision: A Review

BriefGPT - AI 论文速递 ·

JARVIS-1 是一个智能体，在 Minecraft 中完成了超过 200 个任务，长期目标完成率为 12.5%。通过多模态记忆和决策制定，提升了智能和自主性。LEO 是一种通用代理，专注于三维视觉与语言的结合，表现优异。研究还提出了结合大型语言模型与机器人感知的双层架构，显著提高了任务执行能力。

Optimus-1：混合多模态记忆增强的智能体在长期任务中表现出色

BriefGPT - AI 论文速递 ·

本文介绍了一种新方法A$^{2}$-MAE，通过预训练不同类型的遥感图像和地理信息，重构遮蔽补丁，从而提升多种下游任务的性能。同时，研究探讨了自监督学习在三维视觉中的应用，提出基于掩码自编码器的模型，显著提高了三维物体检测的准确性。

遥感图像的带角度的掩码自编码器

BriefGPT - AI 论文速递 ·

本文介绍了多种基于拓扑的深度学习方法，如局部拓扑模型、拓扑神经网络和持久同调技术，旨在提升图分类和节点分类的性能。这些方法通过结合拓扑信息与图神经网络，显著提高了预测能力，尤其在医学图像分类和三维视觉对象分类中表现突出。

拓扑神经网络的持续性、等变性、连续性

BriefGPT - AI 论文速递 ·

本文研究了密集三维视觉接地技术，提出了ConcreteNet网络，通过底层注意融合和对比训练提升物体定位性能。同时构建了Mono3DRefer数据集，利用文本嵌入进行多模态学习，提出了Mono3DVG-TR网络。文章还探讨了3D密集图像描述的任务定义及未来研究方向，强调大型语言模型在三维视觉定位中的应用。

通过基于提示的定位在统一框架中重新思考三维密集字幕和视觉对齐

BriefGPT - AI 论文速递 ·