小红花·文摘

本文探讨了机器人视觉表征学习的局限性，提出利用语义三维关键点和半监督训练的方法，以提升精度至毫米级。介绍了DIAL和Voltron等新方法，通过语言标签和多模态模型改善机器人学习能力，增强其在新指令和复杂任务中的表现。此外，研究了结合模仿与强化学习的方法，以提高机器人在新环境中的适应性和技能优化。

使用大型模型进行物体相关模仿学习的关键点抽象

BriefGPT - AI 论文速递 ·

本文介绍了一种基于深度学习的交互分割框架，结合卷积神经网络（CNN）和加权损失函数，提升了医学图像分割的性能。研究探讨了多种微调方法的应用，并提出新的半监督训练策略和增强的双尺度学习框架，显著提高了分割的准确性和鲁棒性。

跨器官和跨扫描仪腺癌分割：使用Rein微调视觉基础模型

BriefGPT - AI 论文速递 ·

本研究提出了一种基于跨模态知识蒸馏的半监督训练框架，显著提升了单目三维检测性能。通过双向LiDAR-Radar融合框架解决了雷达数据稀疏性问题，并在多个数据集上表现优异。此外，研究探讨了雷达与激光雷达数据融合在恶劣天气下的物体检测能力，提出了相机-雷达知识蒸馏框架，进一步提升了检测性能。

LEROjD：激光雷达扩展的纯雷达目标检测

BriefGPT - AI 论文速递 ·

本文探讨了深度主动学习（DAL）在科学计算和医学图像分析中的应用，评估了不同查询策略的有效性，强调了多样性和半监督训练对模型性能的提升。综述了积极学习的核心方法及未来发展方向，指出标注成本对深度学习的影响，并展望了其在医学图像分析中的挑战与趋势。

本文介绍了一种内存高效的方法SOccDPT，用于从单目图像中进行3D语义占用预测。通过无结构数据集训练，解决了现有方法在结构化交通数据集训练时的局限性。通过半监督训练流程，减少手动标注的要求，使用伪基准真实标签代替，产生了班加罗尔语义占用数据集。引入分块训练，减少了自动图构建过程中的内存使用。在无结构交通和内存受限的环境中，SOccDPT表现更好，RMSE分数为9.1473，语义分割IoU得分为46.02%，竞争频率为69.47 Hz。

OccTransformer：改进 BEVFormer 以用于 3D 仅相机空间占用预测

BriefGPT - AI 论文速递 ·

研究发现，半监督训练和合成的混合开关数据可以提高双语自动语音识别系统的性能。神经传递器编码器对混合开关性能有影响。在ASCEND数据集上评估了英语/普通话系统，混合错误率为25％，比文献节省2.1％，同时保持好的单语测试集准确性。

利用编码解耦的有效混合专家方法进行代码切换语音识别

BriefGPT - AI 论文速递 ·

研究人员提出了一种基于图像引导网络（IGNet）的方法，通过使用RGB图像提供场景的更密集表示。IGNet借鉴了2D语义分割网络中的高级特征信息，并利用FOVMix策略解决传感器之间的水平视场不匹配问题。在ScribbleKITTI上实现了弱监督LiDAR语义分割的最先进结果，无需额外的标注负担或推理中的计算/内存成本。IGNet在半监督训练中也展示了有效性，在ScribbleKITTI和SemanticKITTI上均取得了最先进的结果。

弱监督和半监督的三维语义分割的二维特征蒸馏

BriefGPT - AI 论文速递 ·

使用大型模型进行物体相关模仿学习的关键点抽象

跨器官和跨扫描仪腺癌分割：使用Rein微调视觉基础模型

LEROjD：激光雷达扩展的纯雷达目标检测

深度主动学习综述：近期进展与新前沿

OccTransformer：改进 BEVFormer 以用于 3D 仅相机空间占用预测

利用编码解耦的有效混合专家方法进行代码切换语音识别

弱监督和半监督的三维语义分割的二维特征蒸馏