《精灵宝可梦Go》玩家在十年间无意中贡献了300亿张高精度图像,助力Niantic开发厘米级导航系统。这些数据支持了视觉定位系统,提升了机器人配送效率,体现了游戏的众包测绘战略。
近年来,多模态大模型的发展使AI从“看懂图像”转向“理解现实”。视觉定位任务要求模型根据自然语言描述在图像中找到目标。PaddleFormers v1.0为开发者提供高效的训练与微调工具,支持多模态任务,通过领域数据微调提升模型在特定任务中的表现,满足行业需求。未来,PaddleFormers将进一步降低多模态模型的训练门槛,推动其在实际业务中的应用。
华为推出开源的7B多模态模型openPangu-VL-7B,具备卓越的视觉定位和OCR能力,适用于多种终端场景。该模型在图像处理和文档理解任务中表现优异,推理性能高效,支持实时应用,创新设计提升了训练效果,为开发者提供实用技术参考,丰富了昇腾生态。
本研究提出了一种疾病感知提示(DAP)方法,旨在提高医学影像中视觉定位模型的效率和细粒度标记的准确性,提升定位准确性20.74%。
本文提出了AerialVG任务,专注于航空视角的视觉定位,解决了相似对象区分和空间关系强调的问题。引入了包含5000张航空图像的AerialVG数据集,并提出了一种新模型,实验结果验证了其有效性。
中科院团队通过「预训练 + 监督微调」提升了图文大模型的指令跟随能力,结合高质量指令与类R1强化学习,显著增强了视觉定位能力。Qwen2.5-VL模型在复杂任务中的性能提升达50%。该方法已开源,有效解决了目标定位中的多项挑战,展现出良好的泛化性与通用能力。
该研究提出了一种新框架,通过微调开放集对象检测器,整合遥感图像中的对象检测与视觉定位,显著提高了检测效果。
本研究提出遥感多模态视觉模式(RSMMVP)基准,评估多模态大型语言模型(MLLMs)在遥感图像中的表现,揭示其在视觉定位和空间推理方面的局限性,以推动未来发展。
本研究提出了一种视觉位置提示(VPP)方法,旨在解决多模态大语言模型(MLLMs)在视觉定位任务中坐标与空间信息对齐的问题。VPP-LLaVA通过全局和局部视觉位置提示机制,显著提升了模型在标准定位基准上的性能。
AIxiv专栏发布了一篇关于视觉定位的综述,回顾了过去十年的发展,涵盖多种研究设置和应用。文章总结了视觉定位的历史、现状与挑战,并提出未来研究方向,为新手和资深研究者提供了重要参考。
本研究提出了Reloc3r框架,解决了视觉定位在新场景中的泛化能力不足和姿态估计精度低的问题。该框架在六个公开数据集上表现优异,实现了实时高质量的摄像机姿态估计,推动了视觉定位技术的发展。
本研究构建了M$^{3}$D数据集,解决了视频基础和细粒度视觉定位中的多模态信息提取不足。提出的分层模型在处理缺失模态时表现优异,为后续研究提供了基准。
本研究提出了一种新方法CIGAr,利用艺术描述提升艺术作品的视觉定位效果。研究还提供了一个新数据集Ukiyo-eVG,包含人工标注的短语定位注释,并在两个艺术作品数据集上设定了新的物体检测标准。
本研究提出“多上下文视觉定位”任务,针对多模态大语言模型在实例级视觉语言问题上的局限性进行探讨。通过MC-Bench数据集评估,发现现有模型在多图场景下表现不如人类,推动相关领域的研究进展。
本文提出了一种解决视觉定位中相机姿态估计不精确问题的方法,结合了三维重建和启发式优化策略,生成高质量的合成视图。研究结果表明,该方法在多种基准数据集上表现出色,具有更强的抗噪声能力和更高的定位准确性。
本文提出了一种基于深度学习的方法,通过视觉定位,使用锚点来预测场景的位置和摄像机方向或姿态。该方法在实验中验证了其在室内和室外定位数据集中的效果优于先前的深度学习模型。
在水下复查任务中,高精度定位至关重要。视觉定位是一种成本效益的替代方案,利用车辆上的相机从图像中估计姿势。学习-based姿势估算器在清晰水域和混浊水域的检查任务中表现出前景。通过生成增强训练数据来提高姿势估计的准确性。通过整合姿势估计器输出和传感器数据,提高轨迹的平滑度和准确性。
3D视觉语言预训练(3D-VLP)通过SynVL3D构建了一个简单而统一的Transformer,用于对齐3D和语言,并解决领域转移问题。在视觉定位、密集字幕和问答等下游任务中取得了最新成果。
该研究提出了一种利用卫星图像对地面车辆进行精确定位的方法,通过视觉定位和特征投影矩阵的学习,可以在不需要地面图像数据库的情况下估计任意位置的可能性,并在公共数据集上得到显著的改进。
本文提出了一种基于深度学习的方法,用于视觉定位和摄像机方向预测。实验证明该方法在室内和室外定位数据集中的中位误差有所提升,并在街景中降低了中位误差超过8m。
完成下面两步后,将自动完成登录并继续当前操作。