本文提出了一种新的动态演变双骨架-语义协同框架Neuro,旨在提升零样本骨架动作识别的泛化能力。该方法通过上下文感知的信息,深入探讨跨模态对应关系,实验结果表明其在多个基准数据集上优于现有技术,能够有效推广到新动作类别。
本研究提出了EventCLIP方法,结合2D零样本识别和少样本学习,提升事件相机数据的识别性能。实验结果表明,该方法在多个数据集上表现优异,增强了分类器的鲁棒性。同时,E-CLIP框架通过新颖的编码器和对比对齐模块优化了三种模态的知识传递,提升了整体性能。此外,研究还探讨了无标签事件识别和基于视觉文本的事件检测算法,均取得了显著效果。
本文探讨了候选伪标签学习方法(CPL)和标签对齐方法(LAMM)在提升视觉-语言模型(VLMs)无标签数据性能方面的应用。研究表明,利用大型语言模型(LLM)生成的类别描述和层次化提示学习方法,显著改善了多标签图像识别效果,尤其在零样本识别任务中表现突出。实验结果显示,该方法在多个数据集上超越了现有技术。
本文介绍了一种新框架,显著提升了视觉与语言模型在构成性语言编码能力上的表现,尤其是在零样本视觉识别任务中。研究表明,该模型在识别细粒度概念方面表现更佳,并提出了新的评价方法以解决学习偏差问题。通过新模型架构和训练技术的引入,研究提高了模型的解释能力和组合推理能力,展示了视觉与语言任务中的最新进展与挑战。
本文提出了一种低成本的文本到图像生成方法,通过微调预训练模型中的文本嵌入,优化语义特征定位,避免特征混合,从而提升多概念生成效果。该方法在图像分类和物体检测中表现优越,有效解决零样本识别和小数据集适应问题,显著提高性能。
本文研究零样本数据识别,提出了一种基于多模态表示学习的ZOC方法,通过图像文本描述生成和置信度评分实现未知分类检测。实验结果表明,该方法在多个基准数据集上优于现有方案,尤其在少样本学习和OOD检测中表现突出。
本研究提出了多视图视觉提示融合网络(MvNet),旨在提高零样本三维形状识别的分类准确性。通过利用现成的2D预训练模型,达到了3D点云分类的最新性能。此外,研究还探讨了少样本物体检测、视角估计和3D重建等方法,并在多个数据集上展示了优越表现。
本研究提出了多种多标签学习方法,如AMuLaP、SLDL和GLEMIML,旨在提升少样本文本和图像分类的性能。通过预训练模型和弱监督学习,实验结果表明这些方法在多个数据集上优于现有技术,特别是在零样本识别和分类准确性方面表现突出。
完成下面两步后,将自动完成登录并继续当前操作。