百度大脑 ·

12篇成果入选CVPR 2026！百度实现视觉与多模态技术多点突破

💡 原文中文，约8800字，阅读约需21分钟。

📝

内容提要

百度在CVPR 2026会议上成功入选12篇论文，涉及多模态理解、人脸识别和自动驾驶等领域，展示了其技术实力与创新能力。此次会议吸引了全球顶尖投稿，录用率为25.42%。

🎯

🔎

CVPR会议是计算机视觉领域的顶级国际会议之一，与ICCV和ECCV并列。每年吸引大量顶尖投稿，2026年录用率为25.42%，显示出其高竞争性和学术标准。百度在此会议上入选12篇论文，体现了其在视觉技术领域的持续创新与实力。

百度的PP-OCRv5展示了小模型在OCR任务中的潜力，参数仅5M却能与千亿参数的大模型相媲美。这一成果挑战了传统观念，表明通过数据驱动的优化，小模型也能实现高效能，适用于工业级应用，降低了开发成本。

百度的多篇论文涉及多模态理解与生成，显示出该领域的广泛应用潜力。例如，ViLoMem框架提升了多模态学习能力，适用于视频理解等场景。这些技术的进步可能推动智能系统在更复杂任务中的应用，提升用户体验。

❓

百度在CVPR 2026会议上成功入选了12篇论文。

CVPR 2026会议的整体录用率为25.42%。

PP-OCRv5是一款仅5M参数的超轻量级OCR系统，其性能媲美大模型，打破了“模型越大越好”的传统观念。

PaddleOCR-VL采用“由粗到精”的架构，专注于语义相关的关键区域，抑制冗余信息，从而提升解析效率与性能。

GenHOI通过引入时间偏移和空间注意力，增强了手物交互视频生成的一致性与真实感，解决了物体外观退化问题。

OptiMVMap提出了“先优选、再融合”的新范式，通过最优车辆选择模块提升地图构建质量，避免冗余视角。

🏷️