本文介绍了UniToken,一种自回归生成模型,通过离散和连续表示组合编码视觉输入,实现统一的视觉理解与图像生成。UniToken框架能够捕捉高层语义和低层细节,提升多任务知识自适应能力,实验结果显示其在多个基准测试中表现优异,超越现有方法。
本研究提出了一种新的视频标记器LARP,克服了传统自回归生成模型的局限性。LARP通过整体查询学习视觉信息,显著提升了生成模型的性能,在UCF101基准测试中表现优异,展现了其潜在应用价值。
SutraNets是一种新的神经概率预测方法,通过自回归生成模型将长序列的可能性因子分解为条件概率的乘积。实验证明SutraNets在六个真实世界数据集上显著提高了预测准确性。
完成下面两步后,将自动完成登录并继续当前操作。