小红花·文摘

本研究通过训练紧凑的卷积解码器和微小可学习的嵌入矩阵，将视觉-语言基础模型的先验知识推广到学习预训练期间具有挑战性的领域，提高了单目深度估计的性能，并通过实验证明了所提出的方法的有效性。

CLIP 可以理解深度

BriefGPT - AI 论文速递 ·

RoboFlamingo是一个开源机器人操作模型，利用大型视觉-语言基础模型进行训练，能够在复杂的机器人操作任务中表现出色。RoboFlamingo通过视觉编码器、特征融合解码器和策略头部三个模块实现机器人每一步的动作预测。实验结果显示，RoboFlamingo在各种设置和指标上的性能都很好。这项工作为机器人技术研究者提供了一个强大的开源框架，能够更容易地发挥开源视觉-语言模型的潜能。

带RL的机器人：从类似预测下一个token的伯克利Digit到CMU 18万机器人

结构之法算法之道 ·

本文介绍了一种高效的视觉-语言基础模型EVE，通过统一的预训练任务，在共享的Transformer网络中编码了视觉和语言，并利用稀疏的Mixture-of-Experts模块捕捉模态特定信息。EVE通过遮蔽信号建模实现了图像像素和文本标记的信号重构，从而实现了快速训练和更好的下游性能。

EVE: 基于掩码预测和模态感知的高效视觉 - 语言预训练

BriefGPT - AI 论文速递 ·