小红花·文摘

本研究提出了一种可变视觉位置编码(V2PE)方法，旨在提升视觉-语言模型处理长上下文的能力，特别适用于视频和高分辨率图像等任务。实验结果表明，该方法在多模态任务中表现优异，具有广泛的应用潜力。