小红花·文摘

Om AI联汇发布VLX：全球首个面向物理世界的端侧流式多模态模型

量子位 ·

CVPR 2026最热方向，被一家杭州团队率先跑进了端侧！

量子位 ·

消费级显卡可以快速上手跑！面壁智能MiniCPM-o 4.5发技术报告

量子位 ·

字节Seed推出的M3-Agent多模态智能体具备长期记忆和实时感知能力，通过强化学习提升推理效果，优于现有模型。M3-Bench基准评估其在长视频理解中的表现，展现出卓越的跨模态推理能力。

字节Seed开源长线记忆多模态Agent，像人一样能听会看

量子位 ·

本文介绍了一种新型图形模型，利用Markov随机场算法实现无人驾驶水面船只在海洋环境中快速检测航行障碍物。研究提出了多种技术和数据集，以提升水上物体的感知能力和立体匹配的准确性，强调了实时情景感知在自主导航中的重要性。

轻量级目标驱动的立体匹配网络用于内陆水道

BriefGPT - AI 论文速递 ·

本文探讨了多模态大型语言模型（MM-LLM）在自动驾驶等领域的应用，分析了其发展历程、面临的挑战和未来方向，强调了其在实时感知、决策和工具控制中的潜力，并呼吁学术界与工业界合作推动进步。

农业中利用大型视觉和语言模型：一项综述

BriefGPT - AI 论文速递 ·

本文讨论了自动驾驶中的实时感知及其安全性，提出了多种对抗性攻击框架，如SlowTrack和ControlLoc，并评估了其在不同条件下的攻击成功率。研究表明，系统级攻击设计SysAdv显著提高了攻击效果，同时探讨了多传感器融合设计的安全性和深度学习模型的干扰方法，强调了对抗攻击对自动驾驶系统的影响。

SlowPerception: 自主驾驶中针对视觉感知的物理世界延迟攻击

BriefGPT - AI 论文速递 ·

本文介绍了一种移动机器人在未知环境中进行抓取的运动生成方法，强调通过视觉信息增益和任务效率优化规划。提出了两阶段架构，以确保在动态障碍物下的安全跟踪，并探讨了实时感知与反应的重要性，展示了在真实平台上的评估结果。

SPIN: 同时感知、交互与导航

BriefGPT - AI 论文速递 ·

该研究探讨了机器人在动态操纵场景中的抓取和操纵问题，提出了连续实时感知和反应运动生成方法的重要性，并比较了三种不同的系统架构。通过在真实机器人平台上进行四个场景的广泛评估，量化了反应运动生成系统中不同时间尺度实时反馈融合的鲁棒性和准确性，并分享了系统建设中的经验教训。

利用注意机制的主动感知实时动作生成算法在烹饪机器人中的应用

BriefGPT - AI 论文速递 ·