量子位 ·

视频大模型无损提速：删除多余token，训练时间减少30%，帧率越高效果越好

💡 原文中文，约2500字，阅读约需6分钟。

📝

内容提要

卡内基梅隆大学提出的Run-Length Tokenization（RLT）方法通过合并重复图像块，显著提高视频生成模型的训练和推理速度，训练时间减少30%，推理时间减少67%，且精度损失极小，特别适用于高帧率和长视频。

🎯

❓

RLT方法通过合并重复图像块，显著提高视频生成模型的训练和推理速度，训练时间减少30%，推理时间减少67%，且精度损失极小。

RLT通过将时间上重复的图像块合并为一个token，并使用位置编码表示token的长度，从而减少输入的token数量。

RLT在高帧率数据集中的效果更明显，对于30fps的视频，加速可达100%。

RLT在精度损失极小的情况下实现更好的加速效果，而传统剪枝方法在精度下降0.1-0.5个百分点的情况下，加速只有10-20%。

在训练阶段，RLT对ViT-B和ViT-L模型的训练时间分别减少到10.2小时和15.4小时，精度损失不超过0.1个百分点。

RLT首先对视频进行分块，比较相邻图像块的相似性，合并静态重复的图像块，并为保留的token添加长度编码。

🏷️

AdaCodec：一种适用于 AI 生成视频的编解码器
上海研究提出AdaCodec编解码器，通过优化帧间信息存储，显著减少AI视频生成的资源消耗。该系统在保持性能的同时，视觉令牌使用量减少约86%，提高了视频...
Seedance MCP 对接指南
Seedance MCP 是由 Anthropic 推出的模型上下文协议，允许 AI 模型通过标准化接口调用外部工具。用户可以通过 AceData Clo...
Google LiteRT-LM Speeds Up Local Inference Up to 2.2x With Gemma 4 Multi-Token Prediction
LiteRT-LM brings native support for Gemma 4 Multi-Token Prediction (MTP) draf...
再谈响度战争：为什么你看的视频越来越「吵」了？
文章探讨了“响度战争”现象，即视频和音频内容为了吸引观众注意力而不断提高响度。这种趋势导致动态范围减小，影响听觉体验。虽然更响的声音能短期提升表现力，但可...
全球首个机器人训练楼盘开盘：30万套中国住宅，机器人拎包入住
大晓机器人与港中文MMLab推出Kairos-Homeworld，这是首个全屋三维生成与物体级交互框架，利用30万套中国住宅户型数据为机器人提供训练环境。...
如何优化AI对话开发效果和测试开发质量？
AI对话产品的优化与测试至关重要。需建立可量化的评估体系，结合技术指标与用户体验指标。优化重点包括响应延迟、意图理解和对话体验。测试应覆盖真实场景，确保系...