仅缩小视觉Token位置编码间隔，轻松让多模态大模型理解百万Token！清华大学，香港大学，上海AI Lab新突破

机器之心 ·

仅缩小视觉Token位置编码间隔，轻松让多模态大模型理解百万Token！清华大学，香港大学，上海AI Lab新突破

💡 原文中文，约3800字，阅读约需9分钟。

📝

内容提要

清华大学等机构提出的可变视觉位置编码方法（V2PE）旨在提升视觉-语言多模态模型在长上下文场景下的表现。V2PE通过为视觉token分配可变位置增量，克服了传统位置编码的局限性，显著增强了模型在超长上下文任务中的能力。

🎯

关键要点

清华大学等机构提出可变视觉位置编码方法（V2PE），旨在提升视觉-语言多模态模型在长上下文场景下的表现。
V2PE通过为视觉token分配可变位置增量，克服传统位置编码的局限性，增强模型在超长上下文任务中的能力。
传统的多模态模型位置编码方式并非最优，V2PE有效解决了处理超长上下文任务时的性能瓶颈。
V2PE在32K至1M长度的超长上下文任务中表现显著提升，超越了最先进的闭源大模型。
研究团队构建了用于VLMs长上下文训练和评估的混合数据集，发现直接将LLM的位置编码机制应用于视觉token是次优选择。
V2PE通过为视觉token分配可变且较小的增量，提升了VLMs对长多模态上下文的理解和推理能力。
引入Long Visual Question Answering (Long-VQA)和Long Multimodal Retrieval (Long-MR)数据集，旨在提升VLMs的长上下文能力。
V2PE方法与扩展训练数据应用于开源视觉模型InternVL2-2B，微调后的模型在多模态基准测试中表现优异。
V2PE的提出为视觉-语言模型在长上下文场景下的表现提供了新的思路，提升了模型在长上下文场景下的表现。

❓

延伸问答

V2PE方法的主要目标是什么？

V2PE方法旨在提升视觉-语言多模态模型在长上下文场景下的表现。

V2PE如何克服传统位置编码的局限性？

V2PE通过为视觉token分配可变位置增量，避免了传统位置编码超出模型训练上下文窗口的限制。

V2PE在超长上下文任务中的表现如何？

V2PE在32K至1M长度的超长上下文任务中表现显著提升，超越了最先进的闭源大模型。

研究团队如何评估VLMs的能力？

研究团队构建了一个用于VLMs长上下文训练和评估的混合数据集，以系统地评估和分析其能力。

V2PE对视觉-语言模型的影响是什么？

V2PE有效提升了模型对长多模态上下文的理解和推理能力，解决了位置编码超出训练上下文窗口的问题。

V2PE引入了哪些新的数据集？

V2PE引入了Long Visual Question Answering (Long-VQA)和Long Multimodal Retrieval (Long-MR)数据集，以提升VLMs的长上下文能力。

🏷️

继续阅读

解决“打地鼠困境”：一种更智能的去偏见AI视觉模型的方法
WRING是一种新型去偏见技术，通过调整模型中特定坐标的表示方式，减少目标概念的偏见，同时不增加其他领域的偏见。该方法高效且无需重新训练模型，适用于视觉语...
开源版的 GPT Image 2，信息图、连续图文、本地部署全拿下｜商汤SenseNova U1实测
SenseNova U1 是商汤发布的开源多模态模型，具备连续图文生成能力，能够同时生成文字和图片。该模型在信息图生成方面表现出色，采用 NEO-unif...
拆解微软、谷歌、亚马逊、Meta最新财报：AI变现进入验证期 | 全球深一度
2026年第一季度，微软、谷歌、亚马逊和Meta四大科技巨头财报显示强劲增长。谷歌营收接近1100亿美元，微软AI业务年化收入达370亿美元。市场关注AI...
Anthropic误判Hermes疯狂扣费拒退款：AI客服甩锅遭全网嘲讽
Anthropic公司的AI编程助手Claude Code因误判用户提交的HERMES.md文件，导致用户多扣200美元。客服AI拒绝退款，称技术错误不在...
派早报：Claude AI 接入多个创意软件生态、FILCO 生产方接手品牌等
Anthropic 公司升级了 Claude AI，新增与 Adobe、Blender 等八大创意软件的连接器，提升创作效率。用户可以直接使用 Photo...
剪映即梦猫箱被约谈与AI标识新规解读
字节跳动旗下的剪映、即梦和猫箱因未有效落实AI生成内容标识规定被网信办约谈。监管要求内容需明确标识为AI生成，水印和指纹信息必须保留。尽管生成质量良好，但...