小红花·文摘

本研究提出了一种基于语言的搜索方法，通过双编码器和跨注意力的视觉文本变压器相结合，提高了图像和视频数据集的检索准确性和可扩展性。该方法在Flickr30K图像数据集和VATEX视频数据集上进行了验证。