《精灵宝可梦Go》玩家在十年间无意中贡献了300亿张高精度图像,助力Niantic开发厘米级导航系统。这些数据支持了视觉定位系统,提升了机器人配送效率,体现了游戏的众包测绘战略。
近年来,多模态大模型的发展使AI从“看懂图像”转向“理解现实”。视觉定位任务要求模型根据自然语言描述在图像中找到目标。PaddleFormers v1.0为开发者提供高效的训练与微调工具,支持多模态任务,通过领域数据微调提升模型在特定任务中的表现,满足行业需求。未来,PaddleFormers将进一步降低多模态模型的训练门槛,推动其在实际业务中的应用。
华为推出开源的7B多模态模型openPangu-VL-7B,具备卓越的视觉定位和OCR能力,适用于多种终端场景。该模型在图像处理和文档理解任务中表现优异,推理性能高效,支持实时应用,创新设计提升了训练效果,为开发者提供实用技术参考,丰富了昇腾生态。
本研究提出了一种疾病感知提示(DAP)方法,旨在提高医学影像中视觉定位模型的效率和细粒度标记的准确性,提升定位准确性20.74%。
本文提出了AerialVG任务,专注于航空视角的视觉定位,解决了相似对象区分和空间关系强调的问题。引入了包含5000张航空图像的AerialVG数据集,并提出了一种新模型,实验结果验证了其有效性。
中科院团队通过「预训练 + 监督微调」提升了图文大模型的指令跟随能力,结合高质量指令与类R1强化学习,显著增强了视觉定位能力。Qwen2.5-VL模型在复杂任务中的性能提升达50%。该方法已开源,有效解决了目标定位中的多项挑战,展现出良好的泛化性与通用能力。
该研究提出了一种新框架,通过微调开放集对象检测器,整合遥感图像中的对象检测与视觉定位,显著提高了检测效果。
本研究提出遥感多模态视觉模式(RSMMVP)基准,评估多模态大型语言模型(MLLMs)在遥感图像中的表现,揭示其在视觉定位和空间推理方面的局限性,以推动未来发展。
本研究提出了一种视觉位置提示(VPP)方法,旨在解决多模态大语言模型(MLLMs)在视觉定位任务中坐标与空间信息对齐的问题。VPP-LLaVA通过全局和局部视觉位置提示机制,显著提升了模型在标准定位基准上的性能。
RadVLM是一种多任务对话视觉语言模型,专注于胸部X光片分析。它通过超过100万个图像-指令对进行训练,展现出卓越的对话能力和视觉定位,旨在为放射科医生提供AI助手,以改善诊断工作流程。
AIxiv专栏发布了一篇关于视觉定位的综述,回顾了过去十年的发展,涵盖多种研究设置和应用。文章总结了视觉定位的历史、现状与挑战,并提出未来研究方向,为新手和资深研究者提供了重要参考。
本研究提出了Reloc3r框架,解决了视觉定位中摄像机姿态估计精度不足和泛化能力差的问题。通过相对姿态回归网络和运动平均模块,Reloc3r在六个公开数据集上实现了实时高质量的摄像机姿态估计,推动了视觉定位技术的发展。
本研究提出了渐进式多粒度对齐框架(PromViL),旨在提升大规模视觉语言模型在处理组合概念和实体高层关系时的能力。实验结果表明,PromViL在视觉定位和组合问答任务中显著优于基线模型。
本研究提出OSMLoc方法,旨在解决传统图像与开放街图(OSM)匹配和定位的挑战。该方法结合几何和语义引导的单图像视觉定位,提升了无人地面车辆和物流行业的准确性与鲁棒性。实验结果表明,该方法在多个数据集上表现优越,具有广泛应用潜力。
本研究提出了一种新方法CIGAr,旨在解决现有视觉定位方法在艺术作品中的不足。CIGAr通过利用艺术描述作为上下文,实现了对艺术作品的有效视觉定位。此外,研究还提供了新数据集Ukiyo-eVG,包含人工标注的短语定位注释,并在两个艺术作品数据集上设定了新的物体检测标准。
本文探讨了点云配准在月球环境中的应用,提出了语义感知几何编码器和XFeat等新框架和算法,以提高视觉定位和特征匹配的效率与准确性。同时,研究了航天器在天体表面安全着陆的视觉检测与跟踪问题,并发布了相关数据集以支持未来研究。
本研究提出了“VPR-Bench”框架,用于评估视觉地点识别技术,涵盖12个数据集和10种技术。通过分析评估指标,探讨不同应用下的互补性,并提出新型VPR定义、改进的视觉定位方法及高效的分层识别管道,以提升识别准确性和系统性能。
本文介绍了多种基于卷积神经网络的视觉定位和物体重新识别方法,强调了在不同环境下的鲁棒性提升。研究涵盖了迁移学习、三维物体实例定位、联合语义本地化和新颖的重新识别框架,均取得了显著的准确率和性能提升。
本研究提出了HiFi-CS方法,旨在提升机器人在复杂环境中的对象视觉定位与抓取姿态估计。通过特征线性调制(FiLM)融合图像和文本嵌入,模型在15个桌面场景中实现了90.33%的视觉定位准确率,展示了其在机器人抓取任务中的潜力。
本文探讨了通过局部差分隐私实现图像特征私有化的方法,提出了新的反演攻击技术,证明可以恢复原始图像特征。研究表明,该方法在视觉定位任务中表现优异,同时保证隐私保护,缩小了私有与非私有图像分类之间的精度差距。
完成下面两步后,将自动完成登录并继续当前操作。