本研究提出了一种音频-视觉-文本跨度定位(AVTSL)方法,解决了多语言视觉回答定位中的音频模态问题。实验结果表明,该方法性能优于多种先进技术,强调了音频模态的重要性。
完成下面两步后,将自动完成登录并继续当前操作。