💡
原文中文,约8800字,阅读约需21分钟。
📝
内容提要
百度在CVPR 2026会议上成功入选12篇论文,涉及多模态理解、人脸识别和自动驾驶等领域,展示了其技术实力与创新能力。此次会议吸引了全球顶尖投稿,录用率为25.42%。
🎯
关键要点
- 百度在CVPR 2026会议上成功入选12篇论文,展示了其技术实力与创新能力。
- 会议吸引了全球顶尖投稿,录用率为25.42%。
- 入选论文涵盖多模态理解、人脸识别、自动驾驶等多个前沿研究方向。
- PP-OCRv5是一款超轻量级OCR系统,参数仅5M,性能媲美大模型。
- PaddleOCR-VL通过粗到精的架构提升文档解析效率与性能。
- FaithFusion引入像素级信息增益,解决3D场景生成中的几何保真度问题。
- ViLoMem框架用于构建紧凑的多模态语义记忆,提升学习能力。
- GenHOI增强了手物交互视频生成的一致性与真实感。
- RnG统一了3D重建与新视角生成,推理速度快且高效。
- CoLoGen解决多任务图像生成中的概念与定位表征冲突。
- OptiMVMap提出多车协同建图的新范式,提升地图构建质量。
- TAR-FAS框架提升人脸防伪检测的泛化性与可解释性。
- FCLM通过一致性损失函数提升细粒度视觉理解能力。
- Blink框架增强多模态大模型的视觉感知与推理能力。
- 提出的自监督强化学习框架提升统一多模态模型的生成能力。
➡️