面壁智能发布了MiniCPM-o 4.5,这是首个全双工全模态大模型,支持视频、音频和文本流输入,能够在个人电脑上运行,具备实时感知和主动交互能力,提升用户体验。该模型在多项评测中表现优异,适用于智能助手和无障碍服务,但在稳定性和复杂场景处理上仍有不足。
字节Seed推出的M3-Agent多模态智能体具备长期记忆和实时感知能力,通过强化学习提升推理效果,优于现有模型。M3-Bench基准评估其在长视频理解中的表现,展现出卓越的跨模态推理能力。
本文介绍了一种新型图形模型,利用Markov随机场算法实现无人驾驶水面船只在海洋环境中快速检测航行障碍物。研究提出了多种技术和数据集,以提升水上物体的感知能力和立体匹配的准确性,强调了实时情景感知在自主导航中的重要性。
本文探讨了多模态大型语言模型(MM-LLM)在自动驾驶等领域的应用,分析了其发展历程、面临的挑战和未来方向,强调了其在实时感知、决策和工具控制中的潜力,并呼吁学术界与工业界合作推动进步。
本文讨论了自动驾驶中的实时感知及其安全性,提出了多种对抗性攻击框架,如SlowTrack和ControlLoc,并评估了其在不同条件下的攻击成功率。研究表明,系统级攻击设计SysAdv显著提高了攻击效果,同时探讨了多传感器融合设计的安全性和深度学习模型的干扰方法,强调了对抗攻击对自动驾驶系统的影响。
本文介绍了一种移动机器人在未知环境中进行抓取的运动生成方法,强调通过视觉信息增益和任务效率优化规划。提出了两阶段架构,以确保在动态障碍物下的安全跟踪,并探讨了实时感知与反应的重要性,展示了在真实平台上的评估结果。
该研究探讨了机器人在动态操纵场景中的抓取和操纵问题,提出了连续实时感知和反应运动生成方法的重要性,并比较了三种不同的系统架构。通过在真实机器人平台上进行四个场景的广泛评估,量化了反应运动生成系统中不同时间尺度实时反馈融合的鲁棒性和准确性,并分享了系统建设中的经验教训。
完成下面两步后,将自动完成登录并继续当前操作。