本文介绍了一种名为VSD的新的图像与文本方向,通过使用VL-BART和VL-T5构建了几个基准编码-解码模型,并在基准测试集上进行了实验,结果显示模型性能令人印象深刻。VSRC具有巨大潜力,联合端到端架构是更好的选择。
完成下面两步后,将自动完成登录并继续当前操作。