本文提出了群组式指称表达分割(GRES)任务及其数据集(GRD),并介绍了基线方法GRSer,旨在捕获语言与视觉的交互。研究还提出了多层次指代表达式分割任务(MRES)及其评估基准,展示了新模型在多个数据集上的优越性能。此外,探讨了3D场景中的指称表达理解与分割,提出了统一框架3DRefTR,以提升模型的泛化能力和性能。
该研究提出了一种新颖的知识传递网络,用于跨模态翻译和情感预测。实验证明该方法相较于基线方法实现了显著改进,并在多模态监督方面取得了相当的结果。
该论文研究了低样本物体学习(LSME)与互斥偏见的关系,并提供了新的数据集、基线和方法。LSME旨在正确地将未知对象与类别标签相关联。研究者分析了数据生成流程和影响难度的因素,并评估了多种基线模型的性能。他们提出了一种优于最先进模型的基线方法。
本文介绍了一个新的实例检测数据集和协议,并比较了各种基线方法的性能。实例检测是机器人学和计算机视觉中的一个长期存在的问题。
该研究提出了一个新的人类常识任务和数据集HumanCog,并探讨了丰富的视觉常识和多模式集成的重要性。同时,研究开发了一种强有力的基线方法,并提出了未来的工作方向。
研究发现,CLIP模型在冻结状态下也能提供惊人的持续学习表现,且不需要微调。作者在多种设置和五个基准测试集上评估了CLIP模型,证明其在大多数设置中优于现有模型。同时作者还研究了改变提示模板对CLIP模型性能的影响。作者鼓励在持续学习任务中使用这种强大而简单的基线方法进行未来的比较。
本文介绍了GRAM-ODE神经网络架构,通过不同视图学习动态时空依赖关系,改善通信。实验表明,GRAM-ODE在六个真实数据集上优于基线方法。
完成下面两步后,将自动完成登录并继续当前操作。