生成对抗网络(GAN)是一种现代AI技术,由生成器和鉴别器两个神经网络组成。生成器生成假数据,鉴别器识别真假。它们通过相互学习不断提高,广泛应用于艺术、游戏和医学等领域。尽管面临模式崩溃和训练不稳定等挑战,GAN在实时生成和对抗训练中仍发挥重要作用。
本研究提出了一种新颖的无配对训练方法,解决了学习型图像信号处理器(ISP)中像素级对齐数据的难题。通过对抗性训练和多个鉴别器,该方法在多个评估指标上展现出较高的保真度,显示出强大的潜力。
本文提出了一种基于整洁评分的蒙特卡洛树搜索框架,利用RGB-D摄像头解决桌面整理问题。通过构建数据集和训练鉴别器,该方法能够在未知配置中评估整洁度并探索不同的整理路径,验证了其有效性。
基于大型语言模型的虚假新闻检测研究发现,大型语言模型不能替代小型语言模型在虚假新闻检测中的作用,但可以作为小型语言模型的顾问,提供多元的启示性解释。作者设计了自适应启示指导网络(ARG)用于虚假新闻检测,实验证明ARG在两个真实数据集上的表现优于其他方法。
本研究提出了一种名为VNet的GAN基础神经声码器网络,解决了全频谱输入声码器在语音合成中的过度平滑问题。实验证明VNet在生成高保真语音方面表现优异。
介绍了SLMGAN,一种利用SLM在GAN框架中实现鉴别任务的新方法,特别用于语音转换。通过添加基于SLM的WavLM鉴别器和SLM特征匹配损失函数,实现了无监督的零样本语音转换系统。SLMGAN在自然度和相似性方面优于现有模型,展示了SLM鉴别器在相关应用中的潜力。
该文章介绍了一种基于生成对抗网络(GAN)的声码器,用于语音合成。作者提出了一种基于增强条件鉴别器(AugCondD)的方法,能够在有限数据条件下提高语音质量。实验结果表明,该方法在充足数据条件下能够达到可比较的语音质量。
我们开发了一种创新的双路径耦合去雨网络(DPCNet),通过SFEBlock和FFEBlock在空间和频率域中整合信息,并引入了AFM进行双通路径特征聚合。该方法在六个公共去雨基准和下游视觉任务上进行了实验证明,超越了现有的最先进去雨方法,具有鲁棒性和视觉效果。
本文提出了一种新的动态语义演化生成对抗网络(DSE-GAN),通过自适应重新组合文本特征,在生成过程中提供多样化和准确的语义引导。实验结果表明该模型在CUB-200和MSCOCO数据集上相对FID分别提高了7.48%和37.8%。
该论文提出了一种随机洗牌方法来模拟真实的降级因素,并在合成的数据集上训练深度神经网络,以提高视频超分辨率。结果显示,该方法在NRQM方面提高了7.1%,在BSRGAN方面提高了3.34%。同时,该论文还提出了一个包含高分辨率真实视频的数据集,可作为基准测试的参照。
我们提出了一种新的方法,Adversarial In-Context Learning (adv-ICL),通过使用 LLM 作为生成器、鉴别器和提示修改器来优化背景学习中的提示。我们在 11 个生成和分类任务上展示了 adv-ICL 相对于最先进的提示优化技术的显著改进。此外,我们的方法高效、易于扩展,并且在资源有限的环境中有效。
本文提出了一种新的投影方法,将条件信息纳入GAN的鉴别器中,提高了图像生成质量,并成功应用于超分辨率图像生成。
该文介绍了在Autoregressive Diffusion Models中引入鉴别器指导的方法,使用最优鉴别器可以纠正预训练模型并从底层数据分布中精确采样。作者提出了一种顺序蒙特卡罗算法,可以在生成过程中迭代地考虑鉴别器的预测。作者在生成分子图的任务上进行了测试,展示了鉴别器如何提高生成性能,超过仅使用预先训练的模型。
本文介绍了一种基于深度生成模型的图像迁移方法,可以将一个人的图像从一个姿势转移到另一个姿势,同时保持服装一致。该方法使用图像编码器、姿势编码器和解码器的结构,并利用两个鉴别器来指导产生过程。经过实验验证,该方法在两个数据集上表现良好。
完成下面两步后,将自动完成登录并继续当前操作。