本研究提出了一种基于离散小波变换的图像光谱标记新方法,解决了现有图像标记器在自回归建模中的不足。该方法能够重构不同分辨率的图像,并提高下一个标记预测的条件化效果,显著改善多尺度图像生成和上采样能力。
本研究提出了一种高效的Perceiver基架构(Long LoRA Perceiver - LLP),旨在解决Transformer在长序列处理中的复杂度问题。通过引入三种结构增强,该架构在自回归建模中实现了高性能与计算效率的平衡,实验结果表明其在多个基准测试中超越了最新的Transformer模型。
在2023年NeurIPS大会上,北京大学与字节跳动的《视觉自回归建模》和新加坡国立大学的《随机泰勒导数估计器》获得最佳论文奖,前者提出新型自回归图像生成方法,后者优化多元函数导数计算。厦门大学与英伟达的两篇亚军论文探讨了预训练token的重要性和扩散模型的引导方法。
完成下面两步后,将自动完成登录并继续当前操作。