本文介绍了UniToken,一种自回归生成模型,通过离散和连续表示组合编码视觉输入,实现统一的视觉理解与图像生成。UniToken框架能够捕捉高层语义和低层细节,提升多任务知识自适应能力,实验结果显示其在多个基准测试中表现优异,超越现有方法。
本研究利用概率扩散模型生成高分辨率雷达卫星图像数据集,提出了多种新方法以提高降水预测的准确性和效率,包括机器学习的数据同化方法和自回归生成模型。实验结果表明,这些方法在短期和长期降水预测中表现优越,具有广泛的应用潜力。
本研究提出了一种新型视频标记器LARP,旨在克服传统视频标记方法在自回归生成模型中的局限性。LARP通过学习整体查询来收集视觉信息,提升生成模型的表现,并在UCF101视频生成基准上取得了先进的性能,显示出其潜在的应用价值。
本文提出了一种基于机器学习的视频压缩方法,结合自回归生成模型,优于传统技术。研究表明,该方法在压缩比率和失真质量上表现更佳,并通过深度学习实现可变速率图像压缩,提升了压缩效率和解码速度。
Perceiver AR是一种新型自回归生成模型,能够处理长达100,000个元素的输入序列。它通过交叉注意力将输入编码到潜在空间,解耦计算需求与模型深度,从而显著提高生成效率。在长序列生成任务中,Perceiver AR的表现优于传统Transformer,能够生成和谐的音乐作品。
完成下面两步后,将自动完成登录并继续当前操作。