💡 原文中文,约8800字,阅读约需21分钟。
📝

内容提要

百度在CVPR 2026会议上成功入选12篇论文,涉及多模态理解、人脸识别和自动驾驶等领域,展示了其技术实力与创新能力。此次会议吸引了全球顶尖投稿,录用率为25.42%。

🎯

关键要点

  • 百度在CVPR 2026会议上成功入选12篇论文,展示了其技术实力与创新能力。
  • 会议吸引了全球顶尖投稿,录用率为25.42%。
  • 入选论文涵盖多模态理解、人脸识别、自动驾驶等多个前沿研究方向。
  • PP-OCRv5是一款超轻量级OCR系统,参数仅5M,性能媲美大模型。
  • PaddleOCR-VL通过粗到精的架构提升文档解析效率与性能。
  • FaithFusion引入像素级信息增益,解决3D场景生成中的几何保真度问题。
  • ViLoMem框架用于构建紧凑的多模态语义记忆,提升学习能力。
  • GenHOI增强了手物交互视频生成的一致性与真实感。
  • RnG统一了3D重建与新视角生成,推理速度快且高效。
  • CoLoGen解决多任务图像生成中的概念与定位表征冲突。
  • OptiMVMap提出多车协同建图的新范式,提升地图构建质量。
  • TAR-FAS框架提升人脸防伪检测的泛化性与可解释性。
  • FCLM通过一致性损失函数提升细粒度视觉理解能力。
  • Blink框架增强多模态大模型的视觉感知与推理能力。
  • 提出的自监督强化学习框架提升统一多模态模型的生成能力。
➡️

继续阅读