量子位 ·

理想的AI司机，开始强化学习了

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

理想汽车与多所高校合作推出DriveAgent-R1自动驾驶智能体，采用主动感知和混合思维框架，突破VLM瓶颈，提升决策能力。通过强化学习，DriveAgent-R1在复杂环境中表现优异，具备接近人类司机的潜力。

🎯

关键要点

理想汽车与多所高校合作推出DriveAgent-R1自动驾驶智能体。
DriveAgent-R1采用主动感知和混合思维框架，突破VLM瓶颈，提升决策能力。
DriveAgent-R1通过强化学习在复杂环境中表现优异，接近人类司机的潜力。
VLM存在决策短视和被动感知的限制，影响自动驾驶的可靠性。
混合思维框架根据输入数据判断思考模式，主动感知机制让智能体主动探查环境。
DriveAgent-R1的训练采用三阶段渐进式训练策略，核心是强化学习。
模型通过视觉编码器和语言解码器处理多模态数据，输出驾驶意图的决策。
DriveAgent-R1在多个数据集上实现了SOTA，具备强大的决策能力。
模型测试时根据场景复杂性选择思维模式，主动调用外部工具获取补充信息。
未来需要优化外部工具数量和生成连续轨迹的能力。
强化学习是智能辅助驾驶行业加速上车的新范式，推动从模仿学习到强化学习的转变。

❓

延伸问答

DriveAgent-R1的主要创新点是什么？

DriveAgent-R1的主要创新点是采用主动感知机制和混合思维框架，突破了VLM的决策短视和被动感知限制。

DriveAgent-R1如何提升自动驾驶的决策能力？

DriveAgent-R1通过强化学习和多模态数据处理，能够在复杂环境中做出更高层级的决策，接近人类司机的能力。

DriveAgent-R1的训练过程是怎样的？

DriveAgent-R1的训练采用三阶段渐进式策略，包括双模式监督微调、强制对比模式强化学习和自适应模式选择强化学习。

DriveAgent-R1在复杂场景中如何处理信息？

在复杂场景中，DriveAgent-R1会主动调用外部工具获取补充信息，以确保决策的准确性。

DriveAgent-R1的视觉工具有哪些？

DriveAgent-R1的视觉工具包括高分辨率视图获取、关键区域检查、深度估计和3D物体检测。

强化学习对自动驾驶行业的影响是什么？

强化学习推动了自动驾驶从模仿学习向更高效的决策学习转变，是智能辅助驾驶行业加速上车的新范式。

🏷️

继续阅读

阿里开源Open Code Review：一款AI代码评审命令行工具
阿里巴巴开源的Open Code Review（OCR）是一款AI代码审查工具，能够自动审查Git提交和代码变更。它通过分析代码库，识别潜在的空指针、线程...
国星宇航与腾讯云签署“星算”计划战略合作协议，携手领航AI云服务新生态
成都国星宇航与腾讯云签署战略合作协议，聚焦“星算”AI云服务，推动技术共创与生态建设，深化云服务与AI技术融合，助力数字经济发展。
Winxvideo AI 二十周年限免：视频压缩、本地AI提升画质、防抖
Winxvideo AI 正在进行二十周年限免活动，用户只需提供邮箱即可获取注册码。该软件集视频增强、图片修复、格式转换等功能于一体，支持超分辨率提升、帧...
WPS笔记正式发布：AI贯穿记录、整理与复用全过程
金山办公于6月5日发布了AI笔记产品WPS笔记，旨在提升个人知识管理。该产品支持语音、图片和文字等多种信息录入方式，强调信息的主动理解与复用。通过多级AI...
垃圾桶里捡零件，弹幕里接需求，B 站有群人在用 AI 野生造产品
胡彦斌利用AI编程开发了粉丝社区App「彦火」，呼吁粉丝参与共创。广西学生JXW从垃圾桶捡镜子制作智能眼镜，获得关注。听障者李朋程开发语训App，帮助听障...
Article Series: Securing the AI Stack: From Model to Production
This series provides your roadmap for the machine age, exploring how to move ...