Vbot推出的家用机器人「大头」外观可爱,运动性能优秀,支持自主导航和跟随功能,具备强大的感知能力,续航3至6小时,充电便捷,能自主决策,带来愉悦体验。
本研究探讨了视觉-语言模型(VLMs)与大型语言模型(LLMs)之间的感知与推理机制,提出了跨模态模型融合的方法。结果表明,模型融合有效地将LLMs的推理能力转移至VLMs,且感知能力主要集中在早期层,而推理能力在中后期层得到增强。
MIT的卡尔隆教授及其团队致力于提升机器人的感知能力,开发算法帮助机器人更好地理解环境,以安全地与人类互动。尽管目前仍存在不足,但未来发展前景乐观。
该研究提出了一种新型图形用户界面代理模型UI-TARS,增强了感知能力和统一行动建模,表现优异,减少了对人为干预的依赖。
本研究提出了InternLM-XComposer2.5-OmniLive系统,旨在提升多模态大型语言模型在长期交互中的连续性和感知能力。该系统通过解耦的流媒体感知、推理和记忆机制,能够实时处理视频和音频输入,模拟人类认知,增强多模态交互的适应性和持续性。
本研究探讨了多模态大语言模型在视听理解中的感知能力不足,提出了具有解耦感知设计的ChatRex模型,并构建了Rexverse-2M数据集,实现感知与理解的联合训练,从而显著提升了感知能力。
DeepFusion提出了一种模块化的多模态架构,结合激光雷达、相机和雷达进行3D物体检测,实验表明其在远距离检测和激光点密度方面表现优异。研究显示雷达与相机的融合在低能见度条件下提升了自动驾驶的感知能力,RCBEVDet++框架进一步改善了融合性能,对自主驾驶系统的感知能力产生重要影响。
理想汽车推出全新一代双系统智能驾驶方案「端到端+VLM」,实现更类人驾驶体验。该系统通过大模型自主处理复杂场景,如环岛和收费站,提升感知与决策能力。VLM模型赋予自动驾驶逻辑思考能力,增强驾驶安全性和用户交互体验。
本文探讨了车辆间通信(V2V)在自动驾驶中的应用,提出了多种框架和算法以提升感知和运动预测性能。研究表明,协同感知和信息共享能有效提高车辆在不利环境下的行人检测能力。新提出的自适应加权算法和SmartCooper框架显著降低了通信成本并提升了感知精度,推动了自动驾驶技术的发展。
智能无人机群体结合充电技术在智能城市中提供高效感知能力,通过分布式优化和深度强化学习实现成本效益高、质量高的导航、感知和充电。新的渐进式方法在交通监控方面表现出色。
本研究使用CARLA仿真平台创建停车场模型,提高自主驾驶系统在室内环境中的感知能力和停车操作的安全性。研究结果表明该策略成功提升了自主车辆性能,为未来发展和应用提供基础。
本文介绍了Instruction Contrastive Decoding(ICD)方法,用于减少大规模视觉-语言模型(LVLMs)中的幻觉。ICD通过对比标准和干扰指令的分布,有效减去幻觉概念,提升LVLM的感知和识别能力。实验证明,ICD显著减轻了物体级和属性级幻觉。
VELOCITI是用于测试视频语言模型的新基准,结果显示当前最先进的模型在感知测试上表现良好,但在绑定测试上准确性接近随机,表明它们在绑定测试中失败。
RoboDrive Challenge比赛推动驾驶感知技术发展,评估140个团队的解决方案,特别是处理传感器不一致性和环境变异性。为该领域设立新基准,提供丰富技术参考。
本文介绍了Instruction Contrastive Decoding(ICD)方法,用于减少大规模视觉-语言模型中的幻觉。ICD通过对比标准和干扰指令的分布,有效减去幻觉概念,提升LVLM的感知和识别能力。实验证明,ICD显著减轻了物体级和属性级幻觉。
智能无人机群体结合充电技术在智能城市中提供感知能力,如交通监控和灾害响应。通过分布式优化和深度强化学习,实现成本效益高、质量高的导航、感知和充电。新的渐进式方法包括基于分布式优化的规划和选择,以及基于DRL的飞行方向调度。实验结果表明,该解决方案在交通监控方面表现出色。
智能无人机群体结合充电技术可提供智能城市的感知能力,如交通监控和灾害响应。新方法通过分布式优化和深度强化学习实现无人机的高效导航、感知和充电。实验结果显示该解决方案在交通监控方面表现出色。
本文讨论了AI Agent在实际应用中的挑战,包括长文本处理、多模态模型输入分辨率低等问题。作者认为AI Agent需要具备现实世界的感知和交互能力,以解决复杂任务的规划和环境交互问题。同时,作者提到了多个AI Agent之间的协作结构和交流方式的重要性。最后,作者指出AI Agent的任务规划能力需要通过强化学习来获得。
互联网通过扩展人类的认知和能力,改变了人们的生活。它突破了地理距离的限制,扩展了感知、记忆、认知、情感、社会能力、创造力和想象力。互联网也促进了不同群体之间的交流和合作。然而,互联网也带来了依赖与懈怠、操纵与混乱、碎片化思维、虚拟与浅薄、异化与罪恶以及人际交往衰落等挑战。我们应积极利用互联网的原则,应对其带来的机遇和挑战。
本文提出了一种利用机载摄像头和卫星图像的细粒度室外机器人自定位方法,解决了跨视角定位方法的问题,提高了感知能力和准确性。实验证明该方法优于现有方法,实现了低误差的空间和方向准确性。
完成下面两步后,将自动完成登录并继续当前操作。