百度大脑 ·

12篇成果入选CVPR 2026！百度实现视觉与多模态技术多点突破

💡 原文中文，约8800字，阅读约需21分钟。

📝

内容提要

百度在CVPR 2026会议上成功入选12篇论文，涉及多模态理解、人脸识别和自动驾驶等领域，展示了其技术实力与创新能力。此次会议吸引了全球顶尖投稿，录用率为25.42%。

🎯

关键要点

百度在CVPR 2026会议上成功入选12篇论文，展示了其技术实力与创新能力。
会议吸引了全球顶尖投稿，录用率为25.42%。
入选论文涵盖多模态理解、人脸识别、自动驾驶等多个前沿研究方向。
PP-OCRv5是一款超轻量级OCR系统，参数仅5M，性能媲美大模型。
PaddleOCR-VL通过粗到精的架构提升文档解析效率与性能。
FaithFusion引入像素级信息增益，解决3D场景生成中的几何保真度问题。
ViLoMem框架用于构建紧凑的多模态语义记忆，提升学习能力。
GenHOI增强了手物交互视频生成的一致性与真实感。
RnG统一了3D重建与新视角生成，推理速度快且高效。
CoLoGen解决多任务图像生成中的概念与定位表征冲突。
OptiMVMap提出多车协同建图的新范式，提升地图构建质量。
TAR-FAS框架提升人脸防伪检测的泛化性与可解释性。
FCLM通过一致性损失函数提升细粒度视觉理解能力。
Blink框架增强多模态大模型的视觉感知与推理能力。
提出的自监督强化学习框架提升统一多模态模型的生成能力。

🏷️

继续阅读

黑马图像模型被Nano Banana技术负责人点赞！15人华人小队，DDIM之父&CVPR最佳论文作者带队
Luma AI推出的Uni-1模型在图像理解与生成方面表现优异，超越谷歌的Nano Banana Pro和GPT Image 1.5。该模型由不到15人的...
复盘AI芯片技术路线专用芯片复刻矿机历程
Taalas公司推出了一种新型AI硬件，将Llama 3.1模型直接固化在芯片中，显著降低输出延迟并提升计算效率。这种“模型即硬件”的设计克服了传统GPU...
一分钟读论文：《ICLR2026新CAGE技术破解跨文化AI安全测试难题》
CAGE技术由韩国SelectStar公司研发，旨在解决AI安全测试中的文化偏见问题。它通过“语义模具”方法自动生成适应不同文化的红队测试数据，显著提升小...
技术获 NVIDIA、Pi 双重认可！原力灵机 DM0 模型重塑具身智能新范式
原力灵机 DM0 模型通过 MemoryVLA 和 Real-time VLA 技术，获得 NVIDIA 和 Pi 的认可，显著提升了机器人的智能和反应速...
高德发布全球首个由大模型驱动的视觉认知步行导引系统
高德地图推出全球首个视觉认知步行导引系统“地标AI领航”，结合大模型与海量数据，提供直观的导航指引，提升步行导航效率。
三安光电与清华大学、中国移动协同创新，拓展Micro LED技术应用
三安光电与清华大学、中国移动在Micro LED技术上取得突破，成功应用于数据中心光互连，显著提升信息传输效率。新型Micro LED光源器件的调制带宽超...

12篇成果入选CVPR 2026！百度实现视觉与多模态技术多点突破

内容提要

关键要点

标签

继续阅读