机器之心 ·

7B最强长视频模型！ LongVA视频理解超千帧，霸榜多个榜单

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

新加坡南洋理工大学的LMMs-Lab团队与其他机构的研究人员共同开发了一种名为LongVA的长视频模型，能够处理超过千帧的视频数据，并在视频理解榜单和MLVU基准测试中取得了很好的成绩。研究团队通过扩展语言模型的上下文能力，成功将这种能力传递到视觉模态上，无需进行长视频训练。他们还提出了一种名为Visual Needle-In-A-Haystack的基准测试，证明了LongVA在视觉大海捞针测试中的优秀表现。

🎯

关键要点

新加坡南洋理工大学的LMMs-Lab团队与其他机构共同开发了LongVA长视频模型。
LongVA能够处理超过千帧的视频数据，并在视频理解榜单和MLVU基准测试中表现优异。
研究团队提出了长上下文迁移技术，使得多模态大模型能够在不进行长视频训练的情况下理解超长视频。
LongVA可以处理2000帧或超过20万个视觉token，在Video-MME榜单上实现了7B规模的SoTA。
LongVA采用短上下文训练和长上下文测试的策略，有效展示了长上下文迁移的现象。
团队提出了Visual Needle-In-A-Haystack基准测试，LongVA在该测试中表现出色。
LongVA在V-NIAH测试中几乎全对，且在3000帧的尺度上也保持了不错的正确率。
在Video-MME榜单上，LongVA排名第七，并达到了7B模型的SoTA。
在MLVU基准测试中，LongVA仅次于GPT-4o，位列最强的开源模型。

🏷️

继续阅读

埃隆·马斯克确认xAI使用OpenAI的模型来训练Grok
埃隆·马斯克在加州法庭作证称，他的AI初创公司xAI使用了OpenAI的模型来提升技术。他提到“模型蒸馏”是行业常见做法，允许大型AI模型作为“教师”训练...
OpenAI的新安全模型仅面向‘关键网络防御者’
OpenAI即将推出新的网络安全模型GPT-5.5-Cyber，首批仅向“可信的网络防御者”发布。CEO萨姆·阿尔特曼表示，此次有限发布旨在增强机构的网络...
2026 年 3 月和 4 月该入手的模型手办
2026年3月和4月的特别作品主要包括《光能使者》系列的光能使者和超级光能使者，以及记录孙悟空和库林修行的龟仙屋，但缺少布尔玛和朗琪，显得不太完整。
DeepSeek识图模式是个新模型？！一手实测在此（没错我被灰度到了）
DeepSeek的识图模式在灰度测试中表现优异，支持快速识别和推理。非思考模式下速度快但准确性需提升；思考模式下推理能力强但耗时较长。该模式有效处理OCR...
保护每一次 AI 调用的隐私安全 — 面向企业和个人的大模型安全接入网关
智链 AI 网关在统一代理转发大模型 API 的基础上，内置**数据脱敏、隐私保护、全链路审计**三大安全能力，确保敏感信息不泄露、每次调用可追溯。支持 ...
石榴中尿石素A预防心脏病：抗动脉硬化，斑块变小更稳定！
尿石素A是一种由肠道细菌利用石榴来源的营养物质产生的化合物，它可能通过减少斑块积聚、减轻炎症和降低斑块破裂的可能性来帮助保护动脉。尿石素A似乎并非简单地...

7B最强长视频模型！ LongVA视频理解超千帧，霸榜多个榜单

内容提要

关键要点

标签

继续阅读