本研究解决了多模态大语言模型在输入顺序变化时表现波动的问题。通过特殊排序,视频-字幕匹配和视觉问答任务的性能分别提高了14.7%和17.8%。新指标“位置不变准确率”有助于识别模型的顺序偏差。
完成下面两步后,将自动完成登录并继续当前操作。