本文探讨了机器人视觉表征学习的局限性,提出利用语义三维关键点和半监督训练的方法,以提升精度至毫米级。介绍了DIAL和Voltron等新方法,通过语言标签和多模态模型改善机器人学习能力,增强其在新指令和复杂任务中的表现。此外,研究了结合模仿与强化学习的方法,以提高机器人在新环境中的适应性和技能优化。
本文介绍了一种基于深度学习的交互分割框架,结合卷积神经网络(CNN)和加权损失函数,提升了医学图像分割的性能。研究探讨了多种微调方法的应用,并提出新的半监督训练策略和增强的双尺度学习框架,显著提高了分割的准确性和鲁棒性。
本研究提出了一种基于跨模态知识蒸馏的半监督训练框架,显著提升了单目三维检测性能。通过双向LiDAR-Radar融合框架解决了雷达数据稀疏性问题,并在多个数据集上表现优异。此外,研究探讨了雷达与激光雷达数据融合在恶劣天气下的物体检测能力,提出了相机-雷达知识蒸馏框架,进一步提升了检测性能。
本文介绍了一种基于图像引导网络(IGNet)的方法,通过使用RGB图像提供场景的更密集表示。该方法借鉴了2D语义分割网络中的高级特征信息,并利用一种新型混合策略FOVMix解决了两个传感器之间的水平视场不匹配问题。在ScribbleKITTI上实现了弱监督LiDAR语义分割的最先进结果,仅使用8%的标记点,无需额外的标注负担或推理中的计算/内存成本。此外,在半监督训练中也取得了有效的结果,在ScribbleKITTI和SemanticKITTI上均取得了最先进的结果。
本文介绍了一种内存高效的方法SOccDPT,用于从单目图像中进行3D语义占用预测。通过无结构数据集训练,解决了现有方法在结构化交通数据集训练时的局限性。通过半监督训练流程,减少手动标注的要求,使用伪基准真实标签代替,产生了班加罗尔语义占用数据集。引入分块训练,减少了自动图构建过程中的内存使用。在无结构交通和内存受限的环境中,SOccDPT表现更好,RMSE分数为9.1473,语义分割IoU得分为46.02%,竞争频率为69.47 Hz。
研究发现,半监督训练和合成的混合开关数据可以提高双语自动语音识别系统的性能。神经传递器编码器对混合开关性能有影响。在ASCEND数据集上评估了英语/普通话系统,混合错误率为25%,比文献节省2.1%,同时保持好的单语测试集准确性。
研究人员提出了一种基于图像引导网络(IGNet)的方法,通过使用RGB图像提供场景的更密集表示。IGNet借鉴了2D语义分割网络中的高级特征信息,并利用FOVMix策略解决传感器之间的水平视场不匹配问题。在ScribbleKITTI上实现了弱监督LiDAR语义分割的最先进结果,无需额外的标注负担或推理中的计算/内存成本。IGNet在半监督训练中也展示了有效性,在ScribbleKITTI和SemanticKITTI上均取得了最先进的结果。
完成下面两步后,将自动完成登录并继续当前操作。