本文探讨了扩散变换器(DiT)模型的归纳偏差对泛化能力的影响。研究发现,局部注意力窗口与泛化能力密切相关,通过限制注意力窗口并注入局部注意力,可以显著提高模型的泛化和生成质量,尤其在训练数据较少的情况下。优化DiT的归纳偏差有助于提升性能。
本研究改进了光流处理中的凸上采样方法,提出了解耦加权和上下文特征引入,开发了基于局部注意力的上采样器,实验结果表明这些改进提升了光流模型的精度。
介绍了使用谷歌的新架构的开放语言模型Griffin,结合了线性递归和局部注意力,表现出色。具有固定大小的状态,减少内存使用并在长序列上实现高效的推理。提供了预训练的模型,包含2B个非嵌入参数和调整的指令变种。性能与Gemma-2B相当。
完成下面两步后,将自动完成登录并继续当前操作。