小红花·文摘

本研究探讨了视频自回归预训练模型的有效性，提出了Toto模型系列。研究表明，尽管模型归纳偏见较少，预训练的自回归模型在多个下游任务中表现优异，展现出与语言模型相似的扩展能力。