澳鹏数据推出RoboGo具身智能数据开发平台,旨在解决高质量训练数据稀缺问题。该平台结合多项技术,提供精准目标识别、高精度3D点云、视频内容解析及物理因果链学习,支持智能体在复杂环境中的认知与任务规划。
TrackVLA是一种集成目标识别与轨迹规划的视觉-语言-动作模型,旨在解决具身视觉跟踪任务。通过联合训练,该模型在动态环境中展现出优越的识别与规划能力,提升了智能体在复杂场景中的跟踪效果。
本研究提出了动态环境中目标识别的新定义,旨在提升实时目标识别系统的能力,采用无模型强化学习方法,展示了快速适应变化任务的能力。
本研究提出了一种名为GRAML的方法,将目标识别视为深度度量学习任务,从而解决了手动模型构建的问题。GRAML能够在仅有一个示例的情况下,快速且准确地识别新目标,展现出比现有技术更高的速度和灵活性。
本研究提出了一种多任务平衡通道注意力卷积神经网络(MT-BCA-CNN),旨在解决水下声学目标识别中的样本匮乏和环境干扰问题。该模型结合了通道注意力机制和多任务学习,优化了目标分类与特征重建。实验结果表明,MT-BCA-CNN在27类少样本场景下实现了97%的分类准确率和95%的F1分数,优于传统方法。
合成孔径雷达(SAR)是一种重要的对地观测技术,目标识别(ATR)是其核心问题。目前,SAR目标识别面临技术和生态挑战。国防科技大学团队提出了SARATR-X 1.0基础模型,利用自监督学习和创新框架提升目标识别能力,并致力于建立开源生态以推动技术发展。
本研究提出了一种新方法LRSAA,结合YOLOv11与MobileNetV3-SSD算法,解决大面积遥感图像的目标识别与自动标注问题,优化计算资源需求,实现准确性与速度的平衡。
本文提出了一种基于动态能量评分和自适应损失的非平衡半监督目标识别方法,有效提升了模型在类别不平衡数据集上的识别准确性。
本研究提出了一种新方法,通过设计辅助任务来建模水下声学目标识别中的环境影响,从而提升模型的鲁棒性,并在12类目标识别中取得了先进性能。
本研究提出M3框架,以解决水下声学目标识别中真实信号不足的问题,增强模型的鲁棒性。M3在复杂声学信号处理方面超越了单任务模型,显著提升了性能。
AIxiv专栏报道了一项研究,探讨如何利用大型预训练模型的幻觉来减少对手动提示的依赖。研究团队开发了ProMaC框架,能够在复杂任务中准确识别目标的位置和形状,展示了幻觉的潜在价值。
本文介绍了一种零样本导航方法——视觉语言前沿地图(VLFM),能够在新环境中识别目标对象。VLFM通过深度观测构建地图,并利用视觉语言模型生成价值地图,在多个数据集上取得了优异的结果,并在波士顿动力公司的Spot机器人上实现了高效导航。
该研究使用贝叶斯框架探索目标识别中行动、时间和可解性的作用,并发现行动最重要,但时间和可解性也影响目标识别。研究开发了一个更接近人类推断的目标识别模型,为人类目标识别提供了新的视角。
SeRankDet是一种深层网络,通过非线性的Top-K选择过程和选择性Rank感知注意力模块提高准确性。它还使用Large Selective Feature Fusion模块和扩张差异卷积模块增强了目标识别能力。SeRankDet在多个数据集上表现出色,并提供了代码。
本文分享了一次典型的安全测试实践,展示了一个结构化且专业的测试流程,为初学者和网络安全爱好者提供了可借鉴的安全测试思路。
本研究提出了一种基于图的事件相机新框架SlideGCN,能够高效处理事件数据并保持低延迟特性。采用半径搜索算法来更好地利用事件云的部分规则结构。实验结果表明,该方法在保持最先进的目标识别性能的同时,将计算复杂度降低了100倍。
本文综述了可解释人工智能在药物研发中的最新进展、应用和挑战,探讨了其在目标识别、化合物设计和毒性预测等方面的应用,以及未来的研究方向。
完成下面两步后,将自动完成登录并继续当前操作。