本文探讨了生成式对抗网络(GAN)的优化问题,提出将其转化为广义变分不等式的方法,并引入新的目标函数以解决模式塌陷和生成多样化问题。研究展示了基于ADAM和RMSprop的二阶梯度方法及ZO-Min-Max框架在黑盒环境下的应用,证明了这些方法在GAN训练中的优势和收敛性。
本文研究了大规模文本到图像合成(T2I)中的空间理解能力,提出了评估指标VISOR和数据集SR2D,发现现有模型在多对象和空间关系生成方面存在局限性。引入SR4G数据集,包含990万个图像标题对,微调模型SD$_{SR4G}$显著提升了VISOR指标。此外,研究探讨了通过生成式对抗网络和自然语言描述改善图像生成质量的方法,并提出了VersaT2I框架以提升T2I模型性能。
本研究提出了一种基于生成式对抗网络的图像拓展方法,能够实现图像内容的多样化,提升视觉质量和多样性。同时,引入基于遮罩的三维扩散模型,确保视频外延的时间连续性,减少抖动。实验结果表明,该方法在视频外延任务中表现优异。
本文系统回顾了人脸数据增强研究,重点分析基于深度学习的方法,特别是生成式对抗网络。这些方法有效丰富了人脸训练集,提高了数据质量,并提出了评价指标及未来挑战。同时,探讨了数据增强在计算机视觉中的应用,强调其对模型鲁棒性的提升作用。
本文研究了使用重要性采样方法优化生成式对抗网络训练。实验结果显示该方法能够提高生成样本的优化速度和保真度。
完成下面两步后,将自动完成登录并继续当前操作。