本文提出了一种增强的残差矢量量化(ERVQ)方法,通过优化码本内外来解决码本崩溃问题,从而提升神经音频编解码器的性能。实验结果表明,ERVQ在多种模型和比特率下显著提高了音频质量和泛化能力。
本文介绍了一种基于向量量化的图像压缩编码框架,利用VQGAN模型实现高效压缩和优质重构。同时,提出了语言引导的码书学习框架(LG-VQ),以提高多模态任务的性能。研究表明,低秩码簿量化方法(LCQ)在不增加存储成本的情况下,能提升大型语言模型的准确性。此外,提出的多级生成语义通信系统和鲁棒生成模型(RVQ-VAE)在处理异常值和生成特征恢复方面表现优异。
本文提出了一种基于深度学习技术的统一混合波束成形框架,提高了宽带多用户混合波束成形的速率和可靠性。
QINCo 是一种神经网络 RQ 变体,它通过根据先前步骤的向量逼近条件化地预测每个向量的专门码书,实验证明 QINCo 在多个数据集和码字大小上显著优于现有方法。
通过量化多种身体部位的运动为其各自领域定制的码本,利用预训练模型将多模态信号转换为共享的潜在空间,并通过逐步预测后续令牌形成完整序列来将这些信号转换成离散的运动令牌,最后从令牌序列中重构连续的实际运动。研究方法将多模态动作生成挑战框架定义为令牌预测任务,利用基于控制信号模态的专门码本,具有可扩展性,能够轻松整合新的模态。实验证明了设计的有效性并强调了广泛应用的潜力。
该文介绍了一种基于码本的视频压缩框架,通过传输码本的索引序列来实现视频压缩,避免了自回归熵建模,兼顾了计算效率和跨平台性能。
完成下面两步后,将自动完成登录并继续当前操作。