VideoChat-Flash：针对长文本视频建模的分层压缩技术，可在计算量减少 100 倍的情况下处理长文本视频

实时互动网 ·

VideoChat-Flash：针对长文本视频建模的分层压缩技术，可在计算量减少 100 倍的情况下处理长文本视频

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本文介绍了一种新型的分层视频标记压缩方法HiCo及其在VideoChat-Flash中的应用，旨在提高长上下文视频的处理效率。该方法通过压缩视频信息，减少计算量，同时保留关键数据，显著提升了模型在短视频和长视频理解上的表现，超越了现有的SOTA模型。

🎯

关键要点

本文介绍了一种新型的分层视频标记压缩方法HiCo。
HiCo旨在提高长上下文视频的处理效率，减少计算量，同时保留关键数据。
该方法在短视频和长视频理解上显著提升了模型表现，超越了现有的SOTA模型。
长上下文视频建模是多模态大型语言模型的重要功能，但处理超长视频仍面临障碍。
视频标记的压缩显示出巨大的潜力，但在细节表示方面存在权衡。
VideoChat-Flash是一个实用的上下文建模系统，专为处理长上下文视频而设计。
HiCo通过压缩视频信息解决视觉冗余问题，扩大上下文窗口。
作者提供了一个庞大的微调数据集，涵盖300,000小时的视频和20亿个单词的注释。
提出了改进版的多跳视频配置任务NIAH，要求模型定位一系列相互连接的指示性图像。
VideoChat-Flash在短视频和长视频基准测试中表现出色，超越了7B规模模型的所有其他方法。
所提出的模型在多个基准测试中实现了SOTA，表现出强大的时间基础能力。

❓

延伸问答

HiCo技术的主要目标是什么？

HiCo技术旨在提高长上下文视频的处理效率，减少计算量，同时保留关键数据。

VideoChat-Flash在视频理解方面的表现如何？

VideoChat-Flash在短视频和长视频基准测试中表现出色，超越了7B规模模型的所有其他方法。

HiCo如何解决视频信息中的视觉冗余问题？

HiCo通过将扩展上下文从剪辑压缩到视频级别来解决视觉冗余问题。

作者提供了什么样的数据集来支持模型训练？

作者提供了一个庞大的微调数据集，涵盖300,000小时的视频和20亿个单词的注释。

NIAH任务的创新之处是什么？

NIAH任务要求模型定位一系列相互连接的指示性图像，后续图像只能使用第一幅图像中的线索找到。

该技术在计算量方面的优势是什么？

所提出的方法在实验中实现了高达两个数量级的计算量减少。

🏷️

继续阅读

阴谋论视频创作者迎来黄金时段
白宫记者晚宴后，阴谋论视频创作者在TikTok和YouTube迅速崛起，声称事件是虚假旗帜行动。尽管传统媒体已有报道，这些视频仍吸引大量观众，反映出人们对...
消费级显卡可以快速上手跑！面壁智能MiniCPM-o 4.5发技术报告
面壁智能发布了MiniCPM-o 4.5，这是首个全双工全模态大模型，支持视频、音频和文本流输入，能够在个人电脑上运行，具备实时感知和主动交互能力，提升用...
DeepSeek-V4 技术解析：架构革新与 Coding Agent 后训练优化
DeepSeek-V4技术通过架构创新和后训练优化，显著提升了长上下文处理能力。其混合注意力机制和流形约束超连接提高了效率与稳定性。后训练阶段采用专家培养...
阿里视频模型 HappyHorse 开启灰测，悟空已率先接入
阿里推出的HappyHorse 1.0视频生成模型已开始灰测，面向企业用户进行客户共创。该模型支持文生视频、图生视频等多模态创作，能够快速生成高质量的图片...
《面向移动终端的超高清视频分发格式规范》标准解读
国家广播电视总局发布了GY/T 427—2026标准，旨在规范移动终端超高清视频分发，提升用户体验，支持国产HDR技术，并明确终端解码能力要求。节目平台需...
流媒体的未来：技术如何塑造观看体验
流媒体行业在过去十年经历了巨大变革，成为主要媒体消费方式。AI和机器学习提升了用户体验和内容创作效率，5G技术将进一步改善流媒体质量。尽管面临内容盗版和信...