该文介绍了COST框架,使用三个分支的transformers和交叉粒度的注意力模块对视觉-语言交互进行建模和对齐,以获得准确的字幕预测。实验证明,COST方法在视频字幕领域中表现优于现有方法。
完成下面两步后,将自动完成登录并继续当前操作。