本文介绍了自回归变换器推理中键值(KV)缓存的作用,如何通过缓存已计算的键和值来消除冗余计算,从而显著提高生成速度,推理速度提升可达3-5倍。尽管内存使用增加,但在实际应用中,这种提升是值得的。理解KV缓存为进一步优化推理提供了基础。
本研究提出了一种名为SongGen的自回归变换器,旨在解决文本转歌曲生成中的数据稀缺和复杂性问题。该模型简化了训练和推断流程,支持对多种音乐属性的精细控制,能够生成混合模式和双轨模式的歌曲。
本研究提出了一种改进的自回归变换器文本到语音模型,旨在解决长序列的鲁棒性和长度泛化问题。通过引入对齐机制和相对位置信息,提升了输出的自然性和表达力。
本研究提出了softmax-1重构方法和OrthoAdam优化器,针对自回归变换器中的两个现象,有效降低了对第一个标记的关注,提升了量化后模型的性能。
CLIP-GEN是一种自监督学习策略,用于生成通用文本图像。它利用CLIP的语言-图像先验知识,通过自编码器和自回归变换器将图像转换为文本标记,并生成连贯的图像标记。该方法在图像质量方面优于基于优化的文本到图像方法,且不影响文本与图像的匹配。
完成下面两步后,将自动完成登录并继续当前操作。