该研究提出了一种新的视觉问答基准,用于评估文本生成视觉语言模型的能力,并与辨别性视觉语言模型进行比较。研究建议利用标签空间的语义层次结构为细粒度分类任务中的粗略答案提出自动生成的后续问题,以改善评估模型预测的传统自然语言处理和基于语言模型的度量标准。该研究为更精确、有意义的评估奠定基础,促进了视觉语言建模领域的有针对性进展。
本论文介绍了一种名为ScaleDet的可扩展多数据集目标检测器,通过增加训练数据集来提高其跨数据集的泛化能力。ScaleDet使用简单且可扩展的公式来统一多个数据集的标签空间,并通过视觉文本对齐进行训练。实验证明,ScaleDet在多个数据集上表现出良好的性能和可扩展性。
该文介绍了一种简单的方法,通过利用标签空间的度量信息来适应已训练好的模型以预测新类别或提高零样本预测性能,无需额外训练。该方法可预测任何未观察到的类别,并在实证研究中相对于其他方法获得了高达29.7%的相对改进。
研究发现,大型语言模型的表现受到标签空间、输入文本分布和序列格式等因素的影响,揭示了语境学习的原理和作用方式。同时,研究提出了新问题,即是否可以仅通过推理来学习大型语言模型的更多内容。
该文介绍了一种名为“零射领域泛化”的新领域泛化方法,该方法可以在未知领域的标签空间发生变化的情况下,将模型推广到新的未见领域和新类别。作者提出了一种简单的策略,有效地利用了类的语义信息,使现有的领域泛化方法满足零射领域泛化的要求。作者在多个数据集上评估了该方法,为这个新的研究方向奠定了坚实的基础。
本文介绍了一种弱监督标签统一流程,用于合并多个训练在异构数据集上的目标检测模型的伪标签,构建统一的标签空间,纠正偏见并提高泛化能力。通过微调多个数据集上的目标检测模型,并验证伪标签,重新训练一个在动态交通场景中表现出色的模型,展示了该方法的有效性。该方法在目标检测性能方面取得了显著提升,得到了对领域变化具有更高抵抗力的模型。
完成下面两步后,将自动完成登录并继续当前操作。