机器之心 ·

单卡3090帮你一口气看完《黑悟空》，港大百度打造超长视频理解引擎VideoRAG

💡 原文中文，约4800字，阅读约需12分钟。

📝

内容提要

VideoRAG是香港大学黄超教授实验室的最新研究，旨在高效理解超长视频。该框架通过多模态知识索引和检索，整合视频中的视觉、音频和文本信息，支持跨视频推理。在LongerVideos基准数据集上，VideoRAG表现优异，显著提升了视频理解能力，为未来研究提供了新思路。

🎯

❓

VideoRAG旨在高效理解超长视频，通过多模态知识索引和检索整合视频中的视觉、音频和文本信息。

VideoRAG仅需单张RTX 3090 GPU即可高效理解数百小时的超长视频内容，采用双通道索引架构和多模态特征编码。

LongerVideos基准数据集包含160多个视频，涵盖讲座、纪录片和娱乐等类别，总时长超过134小时，支持跨视频推理能力的评估。

在评估中，VideoRAG在全面性、赋能性、可信度、深度和信息密度等维度上均显著优于现有RAG方法。

VideoRAG通过双通道索引架构和自适应混合检索范式，结合知识图谱与多模态特征嵌入，提升了视频内容的检索精度和理解能力。

VideoRAG通过构建跨视频知识图谱，建模语义关联与时序依赖，支持在多个视频片段之间进行推理。

🏷️

AdaCodec：一种适用于 AI 生成视频的编解码器
上海研究提出AdaCodec编解码器，通过优化帧间信息存储，显著减少AI视频生成的资源消耗。该系统在保持性能的同时，视觉令牌使用量减少约86%，提高了视频...
再谈响度战争：为什么你看的视频越来越「吵」了？
文章探讨了“响度战争”现象，即视频和音频内容为了吸引观众注意力而不断提高响度。这种趋势导致动态范围减小，影响听觉体验。虽然更响的声音能短期提升表现力，但可...
基于 Amazon ECS Fargate 和 Graviton 构建企业级多租户 AI Agent 平台：OpenClaw + Hermes 双 Agent 实践
本文介绍了基于Amazon ECS Fargate和Graviton构建的企业级多租户AI Agent平台，结合OpenClaw和Hermes两个开源Ag...
第28期大数据师资培训班报名主页（Hadoop+Spark+实战案例班，暑假，泉州，2026年8月6日-13日）
第28期大数据师资培训班将于2026年8月在泉州举行，旨在提升中国高校大数据课程的教学水平。培训内容包括课程知识体系、授课方法和实验环境搭建，帮助教师建立...
Article Series: Securing the AI Stack: From Model to Production
This series provides your roadmap for the machine age, exploring how to move ...
Google LiteRT-LM Speeds Up Local Inference Up to 2.2x With Gemma 4 Multi-Token Prediction
LiteRT-LM brings native support for Gemma 4 Multi-Token Prediction (MTP) draf...