本研究提出了一种基于隐式神经表示的切片到体积重建方法,能够从多张运动干扰的低分辨率2D切片中快速准确地重建高分辨率MRI图像。实验结果表明,该方法在重建质量上显著优于现有技术,并能减少多达50%的重建时间。
本文研究了传统体素方法在高比特深度点云处理中的局限性,提出了一种分阶段的空间到通道(S2C)上下文模型,改进了数据压缩效果并降低了计算复杂性。通过几何残差编码(GRC)和球坐标系统,该方法提高了重建质量,节省了数据位数,展示了在稠密和低级稀疏点云上的应用潜力。
本文介绍了一种名为One-D-Piece的可变长度离散图像分词器,采用“Tail Token Drop”技术,优化了图像压缩和重建质量。该方法在保持高重建质量的同时,支持灵活的令牌数量,显著优于传统压缩方法,如JPEG和WebP,适用于多种计算机视觉任务。
随着3D显示和虚拟现实技术的发展,多视角视频的压缩面临挑战。本文提出了一种隐式-显式集成的压缩方法,结合2D编解码器与隐式神经表示,显著提升了压缩性能和重建质量。实验结果表明,该方法在视角压缩方面优于现有标准。
本文提出了一种新型有损图像压缩编解码器,利用潜在扩散模型在低比特率下生成高质量图像重建。该方法通过结合去噪和量化噪声,优化去噪步骤,显著提升了重建质量和速度,优于传统生成式编解码器。
本研究提出了一种新模型,通过渐进训练高压缩块,实现视频分词器在不增加通道容量的情况下,时间压缩比超过4倍,显著提升重建质量和效率,对视频生成具有重要影响。
本研究提出FLowHigh方法,针对音频超分辨率中的病态问题,应用高效生成模型流匹配技术,显著提升重建质量。实验结果表明,FLowHigh在VCTK基准数据集上表现优异,仅需单步采样,降低计算延迟。
微软开源了新的视频Tokenizer VidTok,其性能显著优于Cosmos Tokenizer和Open-Sora。VidTok支持多种设置,适用于不同场景,并可在自定义数据集上微调。其创新架构和量化技术提升了重建质量和训练效率,为视频生成和世界模型研究提供了强大工具。
本研究提出了TexTok框架,解决了现有图像标记化方法在高分辨率生成中的低压缩率问题。TexTok结合文本描述,显著提高了重建质量和生成速度,推动了图像生成技术的发展。
本研究提出了一种新的分组球面量化(GSQ)方法,解决了图像标记器在可扩展性和分析全面性上的不足。GSQ-GAN在较少的训练迭代中实现了优越的重建质量,展现了高维隐空间的有效压缩与重构能力。
本文介绍了基于3D高斯模型的技术进展,如pixelSplat和MVSplat。这些模型在重建3D辐射场时表现出高效性和准确性,尤其在处理稀疏视角和细节丰富的场景时。研究通过新方法和框架提升了重建质量和速度,并展示了良好的跨数据集泛化能力。
本研究提出小波流变分自编码器(WF-VAE),旨在解决视频变分自编码器在生成高分辨率和长时长视频时的编码成本问题。WF-VAE通过小波变换增强潜在表示的低频能量流,并采用因果缓存方法以确保潜在空间的完整性。实验结果表明,WF-VAE在PSNR和LPIPS指标上优于现有方法,吞吐量提高2倍,内存消耗降低4倍,同时保持重建质量。
本研究提出了一种稀疏先验引导的方法,有效解决点云压缩中的表示冗余问题,显著提升高压缩比下的重建质量,优于现有技术。
本研究提出了TimeFormer模块,旨在解决动态场景重建中的复杂运动建模问题。该方法有效学习可变形3D高斯体的时间关系,显著提升了重建质量和速度。
本研究提出了一种新颖的视觉-触觉框架ViTaM-D,通过分布式触觉传感器提升手物体交互的重建质量,实验结果表明其在刚性和可变形物体重建的准确性上显著优于现有技术。
本研究提出了一种新颖的LLV-FSR框架,旨在解决现有人脸超分辨率方法在视觉信息不足时的局限性。该方法结合大型视觉-语言模型与高阶视觉先验,在MMCelebA-HQ数据集上显著提高了重建质量,PSNR超越当前最优方法0.43dB。
本研究提出了一种新颖的子空间扩散模型(Sub-DM),有效解决了MRI重建中扩散模型收敛速度慢的问题,显著提升了重建速度和质量,具有较大的应用潜力。
本研究提出了一种无监督的预处理流程,旨在提高高加速MRI重建的质量,特别是在加速因子≥8的情况下。通过训练去噪深度神经网络和引入退火半平方分离算法,重建效果显著改善。
本文提出了一种名为NoPoSplat的前馈模型,旨在从稀疏无姿态的多视角图像中重建3D场景。该模型通过光度损失进行训练,实现实时的3D高斯重建,显著提高了重建质量和精度,尤其在图像重叠有限的情况下表现突出。
该研究提出了一种新型点云压缩方法,结合了“bits-back编码”和深度学习技术,显著提升了压缩效率和重建质量。实验结果表明,该方法在多个基准数据集上优于现有技术,具有广泛的应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。