本研究提出了Music2Latent2音频自编码器,旨在高效压缩音频信号并保持音频质量。通过无序摘要嵌入和自回归模型,该方法显著提高了重构质量,优于现有音频自编码器。实验结果表明,其在音频质量和下游任务性能上表现更佳。
本研究提出了QUEEN框架,旨在解决在线自由视角视频流媒体的增量更新和实时约束问题。通过学习帧间高斯属性残差,QUEEN显著提升了重构质量和泛化能力,模型每帧仅0.7MB,训练时间少于5秒,渲染速度达到350FPS,超越了现有方法。
介绍了HNeRV混合神经表示方法,提升视频回归任务的重构质量和收敛速度,适用于视频压缩和视频修补等下游任务。
该文介绍了一种利用编码字典中关于张量模式的先验结构信息来获得稀疏编码的张量因子的多字典张量分解(MDTD)框架。实验证明,MDTD 相比无字典方法学习到更简洁的模型,且在重构质量、缺失值插补质量和张量秩的估计等方面均具有明显的改进,而且不会增加运行时间。
完成下面两步后,将自动完成登录并继续当前操作。