本文提出了一种新颖的紧凑视频自编码器VidTwin,通过解耦视频的结构和动态潜在向量,解决了视频生成中的压缩与质量平衡问题。实验表明,VidTwin在视频重建中实现了高达0.20%的压缩率,并在生成任务中表现优异,为未来研究奠定了基础。
该论文提出了一种潜在提示Transformer模型,用于解决分子设计等优化问题。该模型由潜在向量、分子生成模型和属性预测模型组成,实验证明其在分子设计任务上表现出最先进的性能。
本研究提出了一种基于潜在向量定义注意力的方法,将传统 transformer 模型中的时间复杂度降低为随序列长度线性增长。该方法可以在双向和单向任务中使用,并实现了记忆和时间高效的循环实现。与标准 transformer 相比,该方法只需常数时间计算下一个记号。实证表现相当,允许在标准 attention 不可行的背景窗口范围内进行扩展。
自编码器是一种基于潜在向量和重构输出的模型,常用于降维、去噪、超分辨率和生成模型等任务。文章介绍了变分自编码器和对抗性自编码器的结构和训练方法,以改进潜在向量的语义含义。此外,还介绍了条件自编码器和半监督自编码器的应用。
完成下面两步后,将自动完成登录并继续当前操作。