本文介绍了一种零样本导航方法,即视觉语言前沿地图(VLFM),通过深度观测和预训练的视觉语言模型,在陌生环境中驶向未见过的语义对象。VLFM在多个数据集上实现了最先进的结果,并在现实世界的机器人上展示了高效导航的能力。
本研究评估了预训练的视觉-语言模型在生物相关问题上的应用潜力。通过创建一个包含30,000幅图像和469,000个问答对的数据集,评估了12种最先进的模型,并探讨了提示技术和推理幻觉对模型性能的影响。研究发现,当前的模型在生物图像分析领域具有显著的应用潜力。
本研究探索了预训练的视觉语言模型(VLM)和大型语言模型(LLM)在视觉常识推理中的协同能力。通过名为ViCor的协作方法,LLM主动引导VLM集中关注和收集相关的视觉元素,支持潜在的常识推断。该方法在两个VCR基准数据集上表现优越。
通过使用潜在因果因素发现方法(LCFD)和预训练的视觉-语言模型(如CLIP),可以提高学习模型对领域变化的可靠性和鲁棒性,并在无源领域适应和无源领域外泛化上取得新的最先进结果。
本研究探索了预训练的视觉语言模型(VLM)和大型语言模型(LLM)在视觉常识推理中的协同能力。通过名为ViCor的协作方法,LLM主动引导VLM集中关注和收集相关的视觉元素,支持潜在的常识推断。该方法在两个VCR基准数据集上取得了优越表现。
完成下面两步后,将自动完成登录并继续当前操作。