小红花·文摘

1.4亿宝可梦玩家，都在给AI免费打工…

量子位 ·

产业级多模态模型训练工具：PaddleFormers微调打造定制化视觉定位能力

百度大脑 ·

华为推出开源的7B多模态模型openPangu-VL-7B，具备卓越的视觉定位和OCR能力，适用于多种终端场景。该模型在图像处理和文档理解任务中表现优异，推理性能高效，支持实时应用，创新设计提升了训练效果，为开发者提供实用技术参考，丰富了昇腾生态。

华为开源7B多模态模型，视觉定位和OCR能力出色，你的昇腾端侧“新甜点”来了

量子位 ·

本研究提出了一种疾病感知提示（DAP）方法，旨在提高医学影像中视觉定位模型的效率和细粒度标记的准确性，提升定位准确性20.74%。

Seeing the Trees in the Forest: Rethinking Weakly Supervised Medical Visual Localization

BriefGPT - AI 论文速递 ·

本文提出了AerialVG任务，专注于航空视角的视觉定位，解决了相似对象区分和空间关系强调的问题。引入了包含5000张航空图像的AerialVG数据集，并提出了一种新模型，实验结果验证了其有效性。

航空视觉定位：通过探索位置关系的新挑战基准

BriefGPT - AI 论文速递 ·

R1-like Reinforcement Learning Applied to Visual Localization! Fully Open Source Vision-R1 Boosts Performance of Multimodal Models by 50%

机器之心 ·

该研究提出了一种新框架，通过微调开放集对象检测器，整合遥感图像中的对象检测与视觉定位，显著提高了检测效果。

MB-ORES：一种用于遥感中视觉定向的多分支对象推理器

BriefGPT - AI 论文速递 ·

本研究提出遥感多模态视觉模式（RSMMVP）基准，评估多模态大型语言模型（MLLMs）在遥感图像中的表现，揭示其在视觉定位和空间推理方面的局限性，以推动未来发展。

以视觉为中心的遥感基准

BriefGPT - AI 论文速递 ·

本研究提出了一种视觉位置提示（VPP）方法，旨在解决多模态大语言模型（MLLMs）在视觉定位任务中坐标与空间信息对齐的问题。VPP-LLaVA通过全局和局部视觉位置提示机制，显著提升了模型在标准定位基准上的性能。

Visual Grounding of Multimodal Large Language Models Based on Visual Position Prompts

BriefGPT - AI 论文速递 ·

RadVLM是一种多任务对话视觉语言模型，专注于胸部X光片分析。它通过超过100万个图像-指令对进行训练，展现出卓越的对话能力和视觉定位，旨在为放射科医生提供AI助手，以改善诊断工作流程。

RadVLM: A Multitask Conversational Vision-Language Model for Radiology

BriefGPT - AI 论文速递 ·

27页综述，354篇参考文献！最详尽的视觉定位综述来了

机器之心 ·

本研究提出了Reloc3r框架，解决了视觉定位中摄像机姿态估计精度不足和泛化能力差的问题。通过相对姿态回归网络和运动平均模块，Reloc3r在六个公开数据集上实现了实时高质量的摄像机姿态估计，推动了视觉定位技术的发展。

Reloc3r: Large-Scale Training of Relative Camera Pose Regression for Generalizable, Fast, and Accurate Visual Localization

BriefGPT - AI 论文速递 ·

本研究提出了渐进式多粒度对齐框架（PromViL），旨在提升大规模视觉语言模型在处理组合概念和实体高层关系时的能力。实验结果表明，PromViL在视觉定位和组合问答任务中显著优于基线模型。

1.4亿宝可梦玩家，都在给AI免费打工…

产业级多模态模型训练工具：PaddleFormers微调打造定制化视觉定位能力

华为开源7B多模态模型，视觉定位和OCR能力出色，你的昇腾端侧“新甜点”来了

Seeing the Trees in the Forest: Rethinking Weakly Supervised Medical Visual Localization

航空视觉定位：通过探索位置关系的新挑战基准

R1-like Reinforcement Learning Applied to Visual Localization! Fully Open Source Vision-R1 Boosts Performance of Multimodal Models by 50%

MB-ORES：一种用于遥感中视觉定向的多分支对象推理器

以视觉为中心的遥感基准

Visual Grounding of Multimodal Large Language Models Based on Visual Position Prompts

RadVLM: A Multitask Conversational Vision-Language Model for Radiology

27页综述，354篇参考文献！最详尽的视觉定位综述来了

Reloc3r: Large-Scale Training of Relative Camera Pose Regression for Generalizable, Fast, and Accurate Visual Localization

Progressive Multi-Granular Alignments for Grounded Reasoning in Large Vision-Language Models

OSMLoc: A Single Image-Based Visual Localization Method in OpenStreetMap with Geometric and Semantic Guidance

Context-Infused Visual Grounding for Art

月球图像配准分析：MoonMetaSync

配对视觉地点识别：针对视觉地点识别的空间感知预训练和对比配对分类

基于多模态物体实例重识别的全球定位方法

HiFi-CS: Open Vocabulary Visual Grounding for Robotic Grasping

多尺度稀疏子空间中的面部特征保护的排名差分隐私