本研究提出了MonoASRH框架,旨在解决单目三维目标检测中的全局意识不足和小目标遗漏问题。通过高效的混合特征聚合和自适应尺度感知回归,实验在KITTI和Waymo数据集上取得了优异的表现。
本研究提出了一种基于滑动时间窗口的数据处理方法,用于网络入侵检测系统(NIDS)。该方法仅需十一种特征,能够实现高效的数据聚合,训练准确率超过99%。同时探讨了NIDS的泛化能力及其对不同数据集的影响。
本文提出了多种新型网络结构以提升图像超分辨率性能,包括整体注意力网络、WaveMix架构和混合多轴聚合网络。这些方法通过改进特征聚合和注意力机制,显著提高了超分辨率效果,并在多个数据集上优于现有技术。
本文介绍了一种新的立体事件驱动视频帧插值网络(SEVFI-Net),通过特征聚合模块解决视差问题,提升光流和视差估计的准确性。研究构建了立体视觉采集系统,并收集了新的数据集(SEID)。实验结果表明,SEVFI-Net 在多个数据集上优于现有方法,显著提高了视频插帧的质量和效率。
本文介绍了一种基于语义对齐的嵌入方法,结合多头注意力和特征聚合网络,实现了文本描述的行人图像搜索,并在多个数据集上取得最佳性能。研究提出了新的任务和框架,利用跨模态学习和生成检索方法,提升了图像与文本之间的匹配效率和准确性。
该研究利用特征聚合方法 NetVLAD++ 在足球广播中实现行为定位,基于 SoccerNet-v2 数据集训练,取得 53.4% 的平均 MAP,提升 12.7%。文章探讨了足球动作场景理解的挑战,强调多模态方法的潜力,并提出基于图的方法和主动学习框架,以提高行为检测精度。
本文提出了一种基于扩散的3D形状完成方法,利用分层特征聚合和性感知融合策略,显著提升了形状生成的质量和多样性。该方法支持多种输入模态,允许用户通过不完整形状、图像和文字描述生成3D形状,并有效重建不完整的点云对象。此外,研究探讨了该技术在LIDAR三维物体追踪中的应用,提升了追踪的成功率和准确率。
本文分析了六个公开日志数据集的异常检测技术,发现大多数异常与顺序表现无关,简单方法即可实现高检测率。研究比较了多种模型在不同数据集上的表现,提出了基于日志的异常检测框架,并探讨了日志解析和特征聚合对检测效果的影响。
本文提出了一种基于双分支神经网络的点云完形填充方法,结合对象完形子网络和自编码器,能够保留细节并学习全局特征。实验结果表明,该方法在点云补全任务中优于现有技术,并探讨了弱监督学习、姿态估计和特征聚合策略,展示了在多个数据集上的优越性能。
本文提出了一种监控视频中飞鸟对象的检测方法,通过聚合多个连续图像帧上的飞鸟对象的特征,并设计了一个具有大特征图层的检测网络来检测多尺度鸟类对象。实验结果表明该方法有效地提高了飞鸟对象的检测性能。
DFANet是一种高效的卷积神经网络架构,用于资源有限的语义分割。通过特征聚合和多尺度特征传播,DFANet减少了参数数量,提高了学习能力。在实验证明DFANet比现有方法快2倍,FLOPs少8倍,同时提供可比较的准确性。在Cityscapes测试数据集上,IOU平均值为70.3%,仅使用1.7 GFLOPs,在NVIDIA Titan X卡上以160 FPS的速度进行推断。
该文章介绍了DINO-Mix架构,利用DINOv2模型修剪和微调图像,提取鲁棒的特征。通过MLP-Mixer的特征聚合模块,实现全局鲁棒和可泛化的特征描述,从而实现高精度的VPR。实验证明,DINO-Mix在具有光照变化、季节变化和遮挡的测试集上表现优于当前最先进的方法,平均准确率提高了5.14%。
完成下面两步后,将自动完成登录并继续当前操作。