小红花·文摘

Instagram想要垄断你的注意力

The Verge ·

爱奇艺的中登时代

TechWeb 全站精华 ·

YouTube现在允许您在搜索结果中过滤短视频

The Verge ·

谁杀死了长视频？

TechWeb 全站精华 ·

研究：YouTube上观看长视频内容的观众群体以老年为主

实时互动网 ·

暑期档爆款，救不了爱优腾？

TechWeb 全站精华 ·

长视频平台，天生命不好

TechWeb 全站精华 ·

SlowFast-LLaVA-1.5：一种高效的长视频理解视频大语言模型家族

Apple Machine Learning Research ·

智源研究院与上海交通大学联合推出开源视频理解模型Video-XL-2，该模型支持单卡处理万帧视频，编码2048帧仅需12秒。在长视频理解任务中表现优异，超越现有轻量级模型，具有广泛应用潜力，如影视分析和异常行为监测。

单卡搞定万帧视频理解！智源研究院开源轻量级超长视频理解模型Video-XL-2

量子位 ·

本研究提出了帧选择增强生成（FRAG）方法，旨在提高长视频和长文档的理解能力。FRAG通过独立评估每帧的相关性，能够在无需处理长上下文的情况下生成输出，从而显著提升现有多模态模型的表现。

FRAG: Frame Selection Augmented Generation for Long Video and Long Document Understanding

BriefGPT - AI 论文速递 ·

长视频不“拼好饭”

TechWeb 全站精华 ·

介绍FramePack AI：以最小硬件生成高质量视频

DEV Community ·

本研究提出了一种时间动态上下文（TDC）编码方法，旨在解决长视频处理中的信息损失问题。通过语义一致性场景分割和基于查询的Transformer，有效整合视频、音频和文本信息，实验结果表明其在视频理解方面表现优异。

Multimodal Long Video Modeling Based on Temporal Dynamic Context

BriefGPT - AI 论文速递 ·

本研究提出了“时间搜索”框架，以解决长视频处理中的视觉幻觉问题。该框架结合聚光灯机制和反思机制，显著提高了长视频理解的准确性，LVBench准确率从41.8%提升至51.5%。

TimeSearch: Hierarchical Video Search with Spotlight and Reflection for Human-like Long Video Understanding

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过视觉上下文样本扩展和自我奖励对齐，解决多模态大型语言模型在理解长视频时的挑战。该方法结合不同关键帧组合，显著提高了模型在七个数据集上的表现和回答正确率。

From Trial to Triumph: Advancing Long Video Understanding through Visual Context Sample Scaling and Self-reward Alignment

BriefGPT - AI 论文速递 ·

该研究提出了一种名为LanDiff的混合框架，旨在克服文本到视频生成中语言模型和扩散模型的局限性。LanDiff通过粗到细的生成方法有效整合两者优势，在多个基准测试中表现优异，尤其在长视频生成方面超越了现有模型。

Instagram想要垄断你的注意力

爱奇艺的中登时代

YouTube现在允许您在搜索结果中过滤短视频

谁杀死了长视频？

研究：YouTube上观看长视频内容的观众群体以老年为主

暑期档爆款，救不了爱优腾？

长视频平台，天生命不好

SlowFast-LLaVA-1.5：一种高效的长视频理解视频大语言模型家族

单卡搞定万帧视频理解！智源研究院开源轻量级超长视频理解模型Video-XL-2

FRAG: Frame Selection Augmented Generation for Long Video and Long Document Understanding

长视频不“拼好饭”

介绍FramePack AI：以最小硬件生成高质量视频

Multimodal Long Video Modeling Based on Temporal Dynamic Context

TimeSearch: Hierarchical Video Search with Spotlight and Reflection for Human-like Long Video Understanding

From Trial to Triumph: Advancing Long Video Understanding through Visual Context Sample Scaling and Self-reward Alignment

两者的最佳结合：整合语言模型与扩散模型以生成视频

Llama都在用的RoPE有了视频版，长视频理解/检索绝佳拍档

MomentSeeker: A Comprehensive Benchmark and Strong Baseline for Moment Retrieval in Long Videos

Stream Media Video Understanding and Enhanced Memory Knowledge for Multi-turn Interaction

VideoChat-Flash：针对长文本视频建模的分层压缩技术，可在计算量减少 100 倍的情况下处理长文本视频