本研究提出了全能世界模型Owl-1,解决了长视频生成中的不一致性问题。Owl-1通过潜空间模拟长期发展,提升了长视频的多样性和一致性,实验结果表明其生成高质量视频的能力与最先进的方法相当。
本文介绍了一种基于图像条件扩散变换器(ICDT)的水下图像增强方法。通过将退化的水下图像转换为潜空间,并应用ICDT,该方法具有可扩展性和高质量的图像增强效果。实验结果表明,ICDT在图像增强方面优于其他方法。
本文介绍了一种使用triplane自编码器将3D模型编码为紧凑的triplane潜空间的方法,有效压缩了3D几何和纹理信息。同时引入了3D感知交叉注意机制,提高了潜空间的表示能力。利用图像嵌入和形状嵌入作为条件,通过扩散先验模型估计形状嵌入,实现了优于现有算法的性能。仅在单个A100 GPU上耗时7秒。
本论文通过软加权正则化和推理时文本嵌入优化的方法,解决了文本到图像扩散模型无法抑制生成不需要的内容的问题。实验证明该方法适用于像素空间扩散模型和潜空间扩散模型。
本文提出了一种新的可解释性方法,通过在对抗训练的变分自编码器框架内结合潜空间的属性正则化,改进了医学成像中的人工智能模型。实验证明该方法在解决模糊重建问题和提高潜空间可解释性方面具有能力。同时,分析显示使用正则化潜空间进行心脏疾病分类的依赖程度,并展现了很好的解释性。
该研究探讨了将自动编码器转变为生成模型的方法,通过从潜空间进行采样并解码到原始数据空间。研究评估了各种技术,包括一种基于copula的新方法,即经验Beta Copula自动编码器。研究还提供了有针对性的采样或合成具有特定特征的新数据的见解。
完成下面两步后,将自动完成登录并继续当前操作。