本文提出了基于分类树结构的混合分布增量类别分割(TOPICS)方法,通过学习特征嵌入和建立隐式类别关系约束,实现了在开放世界场景中的适用性。在自动驾驶场景下进行了大量评估,证明其达到了最先进的性能水平。
该研究强调了全面模型检查的重要性,发现医学影像深度学习模型的不同层特征嵌入存在显著差异。结果表明仅凭测试准确度无法识别重要模型特征,为性能特性提供了有价值的工具。
本文证明了自注意力结构足以实现信息聚合,无需进行结构适应以及对于目标跟踪提取辨别特征和增强目标和搜索图像之间的通信。通过采用基本的视觉 Transformer(ViT)架构作为主跟踪器,并将模板和搜索图像进行特征嵌入,进而提出了一种紧凑的变换跟踪器。该跟踪器仅由一个 ViT 主干和一个框头组成,可以以每秒 40 帧的速度运行,并在多个测试数据集上实现了最先进的跟踪效果。
通过使用CLIP等语言-视觉模型生成文本特征嵌入,改善特征空间,模拟增量情景,并使用CLIP图像编码器识别潜在对象并分类。在PASCAL VOC 2007数据集上评估,方法优于最先进的方法,特别是对于新的类别。
本文提出了一个像素级聚类框架,用于无监督图像分割,包括特征嵌入、统计计算、图像重建和超像素分割。提出了训练策略和后处理方法,提高分割准确性。实验证明该框架优于先前方法。
本文研究社交媒体上的观点和情感分析,提出了六种最先进的方法,并重新实现其中一种以进行综合实验评估和比较。研究了不同文本和视觉特征嵌入以及多模式CLIP嵌入等。研究结果基于公共数据集的推文和图像进行比较,引入了可复制和公平的评估方案。最后,对方法的局限性和未来工作进行了误差分析。
本文提出了基于特征嵌入的OUR方法和端到端训练策略,以改善模型的长尾现象。研究结果表明OUR方法显著改善了模型的长尾现象,为其他长尾学习方法带来了性能提升。
完成下面两步后,将自动完成登录并继续当前操作。