本文提出RCCFormer网络,通过多级特征融合和自适应尺度感知模块,提高了在人群计数中的准确性,尤其在复杂背景和规模变化下,实验结果表明其优于传统方法。
本研究提出了一种尺度感知图注意力视觉变换器(SAG-ViT),旨在提高视觉变换器在多尺度特征表示中的效率。该模型通过优化节点嵌入,在图像分类任务中显著提升了性能。
本研究提出了MonoASRH框架,旨在解决单目三维目标检测中的全局意识不足和小目标遗漏问题。通过高效的混合特征聚合和自适应尺度感知回归,实验在KITTI和Waymo数据集上取得了优异的表现。
HigherHRNet是一种新的下向人体姿态估计方法,使用高分辨率特征金字塔学习尺度感知表示,具有多分辨率监督训练和多分辨率聚合推理的能力。它能够解决下向多人姿势估计中的尺度变化挑战,从而更精确地定位关键点,特别适用于小尺寸人体。在COCO test-dev中,它比以前最好的下向方法提高了2.5% AP,在CrowdPose test上甚至超过了所有自上而下的方法,表明其在拥挤场景中具有鲁棒性。
该文介绍了GeoAgent框架,用于遥感图像分析。该框架自适应地捕捉图像块外的合适尺度上下文信息,并通过尺度控制代理进行尺度选择动作来切换分割网络的尺度和上下文分支,实现了多尺度图像块特征的提取和融合。实验证明GeoAgent在大规模制图应用中优于传统分割方法。
本研究提出了一种名为TopFormer的移动友好架构,以不同尺度的Token作为输入,产生具有尺度感知的语义特征,并将这些特征注入到相应的Token中以增强表示能力。该方法在多个语义分割数据集上优于CNN和ViT网络,并在ARM移动设备上实现了比MobileNetV3更高的平均交并比精度,同时,TopFormer的微型版本可以在ARM移动设备上实时推断。
完成下面两步后,将自动完成登录并继续当前操作。