本文研究了扩散变换器(DiTs)在文本到图像生成中的效率,分析了架构选择和训练策略。结果表明,标准DiT在性能上与专门模型相当,但参数效率更高。通过层级参数共享策略,DiT-Air和DiT-Air-Lite在保持竞争力的同时,模型尺寸减少了66%。DiT-Air在GenEval和T2I CompBench上表现优异。
本研究提出了一种互联网增强文本到图像生成(IA-T2I)框架,旨在改善现有模型在处理不确定知识文本提示时的不足。该框架通过参考图像和主动检索等机制,提高了生成图像的准确性和相关性,实验结果显示其性能优于现有模型,特别是在不确定知识处理上提升了约30%。
本研究探讨了文本到图像生成模型在文化适应性方面的不足,特别是对俄罗斯文化的理解。提出了一种基于文化代码的数据集处理方法,实验证明该方法能有效提高模型对俄罗斯文化的认知,改善生成质量。
本研究提出了T2I-R1模型,解决了文本到图像生成中的推理策略不足问题。通过双层思维链推理和强化学习,该模型在T2I-CompBench和WISE基准上分别提升了13%和19%的表现,超越了现有最先进模型FLUX。
本研究提出RusCode基准,旨在解决文本到图像生成模型对非英语文化的偏见。通过评估19个类别的俄罗斯视觉文化要素,提升生成质量并促进对不同文化的理解。
本研究介绍了Janus-Pro模型,旨在缩小多模态理解与文本到图像生成之间的能力差距。通过优化训练策略、扩大训练数据和模型规模,Janus-Pro在多模态理解和指令跟随能力上取得显著进展,增强了文本到图像生成的稳定性。
本研究提出了一种名为“单提示单故事”的无训练方法,旨在解决文本到图像生成模型在故事讲述中的一致性不足问题。通过将所有提示合并为单一输入并采用新技术,显著提高了生成图像与输入描述的一致性。实验结果表明,该方法优于现有生成技术。
该研究提出了一种高效通用的解决方案,解决了文本到图像生成中相机控制不精确的问题。通过四个相机参数,研究展示了一个包含57,000多幅图像及其文本提示和相机参数的新数据集,并证明了该方法在生成图像时实现了更精准的相机控制。
本研究提出了一种新方法来优化面部图像化妆技术,构建了包含400万个高质量面部图像-文本对的数据集。Face-MakeUp模型在生成一致性和性能方面表现优异,对文本到图像生成领域具有重要影响。
本研究提出了一种自我提升框架SILMM,旨在解决大型多模态模型在文本到图像生成中的对齐准确性问题。通过直接偏好优化,SILMM实现了模型的自我反馈与优化,实验结果表明其性能提升超过30%。
本研究提出了T2I-FactualBench,这是一个针对文本到图像生成模型的事实性评估基准,重点关注知识密集概念。实验结果表明,现有模型在该领域仍有显著改进空间。
本研究提出了BodyMetric,一种可学习的指标,用于评估文本到图像生成中人体的真实感。该方法结合3D身体表示和文本描述,有效预测图像中人体的真实感,减少了对人工评估的依赖。
本研究提出了一种基于监督对比学习的图像合成框架,旨在解决文本到图像生成中的内模态语义对应问题。通过共享对比分支,该框架有效聚类语义相似的图像-文本对,从而提升生成质量。实验结果表明,在COCO数据集上,FID指标显著提高,验证了方法的有效性。
本研究提出了一种新方法来评估大规模多模态模型(LMMs),重点关注文本到图像生成。结果表明,许多在现有基准测试中表现良好的LMMs在基本图像理解和描述任务上存在不足,显示出其性能改进的潜力。
本文研究文本到图像生成模型在生成人类图像时的伪影问题,尤其是身体异常。通过创建大型人类伪影数据集(HAD)并训练检测模型(HADM),研究表明该模型能够有效识别和定位伪影,从而提高图像质量。
本文探讨了基于扩散模型的文本到图像生成技术,提出了多种创新方法以提高生成图像的质量和准确性,包括结合语言结构与扩散过程、引入新目标函数和迭代反馈学习。这些方法显著改善了图像的真实性和文本-图像对齐性,推动了该领域的发展。
本研究提出了Diff-Instruct*模型,旨在解决文本到图像生成模型与人类偏好之间的对齐问题。通过在线强化学习和散度正则化方法,该模型显著提升了生成图像的真实感和美观度,并在多个基准测试中超越了先前的领先模型。
本研究首次探讨了一步文本到图像生成模型与人类偏好的对齐问题。提出的新方法Diff-Instruct++通过强化学习和人类反馈,展示了在生成图像美学评分和多个指标上超越其他模型的潜力,具有重要的研究意义。
本研究提出了文本到图像生成技术的内容管理框架,强调安全、公平和量化危害的重要性。通过分析隐式对抗提示,识别T2I模型的安全问题,并开发了AEGISSAFETYDATASET和AEGIS方法来评估模型的安全性能。此外,研究揭示了AI生成文本中的社会偏见,推动了AI伦理学的发展。
该研究介绍了多种文本到图像生成模型,如Parti、Muse、SEED和LaVIT,强调了大型语言模型在图像生成中的应用与进展。研究表明,随着模型规模和数据量的增加,视觉特征性能得到提升,并提出了新的图像标记器以提高生成效率和质量,展示了自回归模型在图像生成中的潜力。
完成下面两步后,将自动完成登录并继续当前操作。