小红花·文摘

准确率达85%，苏大、大连理工开发多模态特征融合ML，预测工程纳米材料诱导的慢性损伤

机器之心 ·

本文介绍了一种基于微调的Few-shot目标检测（FSOD）框架，解决了在极低标注情况下的新颖类别偏见表示和分类混淆问题。该框架利用语义嵌入提高检测性能，引入多模态特征融合增强视觉-语言通信，并提出语义感知最大间隔损失避免类别混淆。实验结果显示，该方法在PASCAL VOC和MS COCO数据集上性能显著提升。

基于语义增强的少样本检测，突破新类别偏见 | ICIP'24 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·

本文探讨了多模态特征融合在视觉问答（VQA）中的应用，提出了动态融合、知识蒸馏和图神经网络等方法，显著提升了问答的效率和准确性。实验结果表明，这些方法在多个数据集上表现优越，展现了未来研究的潜力。

在视觉问答中通过模态感知特征蒸馏增强连续学习

BriefGPT - AI 论文速递 ·

本文介绍了多种基于点云的3D物体检测和语义分割方法，如Fast Point Transformer、TANet和FPS-Net。这些方法通过自我关注机制和多模态特征融合，显著提升了在KITTI和SemanticKITTI数据集上的检测速度和准确性，推动了LiDAR点云的应用。

FASTC：一种快速的基于注意力机制的点云语义可通行性分类框架

BriefGPT - AI 论文速递 ·

本文探讨了手语识别技术的最新进展，重点介绍了连续手语识别（CSLR）和孤立手语识别（ISLR）方法。研究表明，关键点规范化、图卷积网络和多模态特征融合等技术显著提高了识别准确率，并在多个数据集上验证了其有效性。这些成果对低资源手语语言的研究具有重要意义。

PenSLR: 波斯语端到端手语识别使用合奏

BriefGPT - AI 论文速递 ·

本文介绍了一种名为互动上下文感知网络（ICANet）的新型网络，旨在提高RGB-T目标检测的准确性。通过多模态特征融合和跨尺度融合技术，提出了多种视觉关注机制，验证了其在不同数据集上的有效性，推动了RGB-T视频目标检测的研究进展。

隐形气体探测：一种基于 RGB 热力交叉关注网络的新基准

BriefGPT - AI 论文速递 ·

AsymFormer是一种用于实时RGB-D语义分割的新型网络，通过优化计算资源分配和引入非对称骨干网络，实现了多模态特征的有效融合。通过重新定义特征选择和提取多模态自相似特征，同时不增加参数数量，以确保在机器人平台上实时执行。在NYUv2和SUNRGBD数据集上评估，AsymFormer在准确度和效率方面取得了平衡。

SigFormer: 稀疏信号引导变换器用于多模态人体动作分割

BriefGPT - AI 论文速递 ·

该研究提出了SkipcrossNets，一种新型融合架构，可自适应地结合激光雷达点云和相机图像，实现特征传递和多模态特征融合。在KITTI和A2D2数据集上表现出色，模型参数只需2.33 MB的内存，在68.24 FPS的速度下运行，适用于移动终端和嵌入式设备。

本文提出了一种名为AsymFormer的新型网络，用于实现实时RGB-D语义分割。该网络通过优化计算资源分配和引入非对称骨干网络，对冗余参数进行了最小化，以实现多模态特征的有效融合。在NYUv2和SUNRGBD数据集上评估该方法，AsymFormer在NYUv2上实现了52.0％的mIoU，在SUNRGBD上实现了49.1％的mIoU。在RTX3090上实现了65 FPS的推理速度，在实施混合精度量化后，达到了令人印象深刻的79 FPS的推理速度。

AsymFormer：面向移动平台的异模态不对称交叉表示学习实时 RGB-D 语义分割

BriefGPT - AI 论文速递 ·

准确率达85%，苏大、大连理工开发多模态特征融合ML，预测工程纳米材料诱导的慢性损伤

基于语义增强的少样本检测，突破新类别偏见 | ICIP'24 - 晓飞的算法工程笔记

在视觉问答中通过模态感知特征蒸馏增强连续学习

FASTC：一种快速的基于注意力机制的点云语义可通行性分类框架

PenSLR: 波斯语端到端手语识别使用合奏

隐形气体探测：一种基于 RGB 热力交叉关注网络的新基准

SigFormer: 稀疏信号引导变换器用于多模态人体动作分割

AdaFuse：基于空间频率交叉注意力的自适应医学图像融合

AsymFormer：面向移动平台的异模态不对称交叉表示学习实时 RGB-D 语义分割