量子位 ·

MiniMax海螺视频团队首次开源：Tokenizer也具备明确的Scaling Law

💡 原文中文，约6000字，阅读约需15分钟。

📝

内容提要

MiniMax海螺视频团队首次开源了视觉分词器预训练框架VTP，解决了算力与生成效果不成正比的问题。研究表明，传统Tokenizer的重建精度与生成质量无关，而VTP强调理解力，提升生成性能。VTP展示了Tokenizer的Scaling Law，优化Tokenizer可有效提升生成系统性能。

🎯

关键要点

MiniMax海螺视频团队首次开源视觉分词器预训练框架VTP，解决算力与生成效果不成正比的问题。
传统Tokenizer的重建精度与生成质量无关，VTP强调理解力以提升生成性能。
VTP展示了Tokenizer的Scaling Law，优化Tokenizer可有效提升生成系统性能。
传统Tokenizer在追求像素级重建时，忽视了生成任务依赖的高层语义与整体结构。
VTP通过图文对比学习和自监督学习，强调理解力和结构化视觉认知。
VTP的设计原则是联合优化理解、重建和生成，确保潜在空间保留生成所需的细节信息。
VTP在ImageNet上的零样本分类准确率达到78.2%，生成能力超过了之前的改进方法。
VTP首次展示了Tokenizer的Scaling Law，生成性能可以随预训练中投入的计算量、参数量和数据规模有效增长。
VTP为整个行业提供了一条新的路径，强调Tokenizer在生成系统中的重要性和投资价值。

❓

延伸问答

VTP框架的主要创新点是什么？

VTP框架的主要创新点在于强调理解力，通过联合优化理解、重建和生成，提升生成模型的性能。

传统Tokenizer的局限性是什么？

传统Tokenizer在追求像素级重建时，忽视了生成任务依赖的高层语义与整体结构，导致生成质量未能提升。

VTP如何解决算力与生成效果不成正比的问题？

VTP通过优化Tokenizer的理解力，强调高层语义的捕捉，从而提升生成效果，解决算力与生成效果不成正比的问题。

VTP在ImageNet上的表现如何？

VTP在ImageNet上的零样本分类准确率达到78.2%，生成能力超过了之前的改进方法，表现优异。

什么是Tokenizer的Scaling Law？

Tokenizer的Scaling Law指的是生成性能可以随着预训练中投入的计算量、参数量和数据规模有效增长的规律。

VTP的设计原则是什么？

VTP的设计原则是联合优化理解、重建和生成，确保潜在空间保留生成所需的细节信息。

🏷️

继续阅读

从超级个体到超级团队，腾讯云发布WorkBuddy企业版
腾讯云在AI产业应用大会上发布了WorkBuddy企业版及办公智能体套件，旨在帮助企业实现AI转型。该套件提供数字员工、人机协作和团队管理功能，提升工作效...
再谈响度战争：为什么你看的视频越来越「吵」了？
文章探讨了“响度战争”现象，即视频和音频内容为了吸引观众注意力而不断提高响度。这种趋势导致动态范围减小，影响听觉体验。虽然更响的声音能短期提升表现力，但可...
MiniMax就擅自更改订阅套餐限额问题发布致歉声明老用户恢复无周限额
稀宇科技因未提前通知用户，将MiniMax订阅套餐从按次计费改为按Token计费，引发用户不满。公司发布致歉声明，承诺为老用户提供补偿，包括保持无周限额和...
MiniMax计费模式突然调整引发用户集体维权
MiniMax宣布自2025年6月1日起将API服务计费模式由“按次计费”改为“按Token计费”，引发用户强烈不满。用户投诉未提前通知且Token消耗高...
AdaCodec：一种适用于 AI 生成视频的编解码器
上海研究提出AdaCodec编解码器，通过优化帧间信息存储，显著减少AI视频生成的资源消耗。该系统在保持性能的同时，视觉令牌使用量减少约86%，提高了视频...
团队在处理重复支付时面临的后台挑战
现代支付系统表面简单，但重复交易的后台复杂性显著。文章探讨了构建重复支付系统时的七个挑战，包括管理支付计划、避免重复收费、优雅处理失败支付、保持系统状态一...