本研究提出了一种基于语言的搜索方法,通过双编码器和跨注意力的视觉文本变压器相结合,提高了图像和视频数据集的检索准确性和可扩展性。该方法在Flickr30K图像数据集和VATEX视频数据集上进行了验证。
完成下面两步后,将自动完成登录并继续当前操作。