本研究使用双编码器方法和跨注意力的视觉文本变压器方法提高了基于语言的搜索的准确性和可扩展性。该方法结合了细粒度跨注意力架构、快速双编码器模型和准确的变压器模型,并在Flickr30K图像数据集和VATEX视频数据集上进行了验证。
完成下面两步后,将自动完成登录并继续当前操作。