开创文本到图像知识编辑的可靠评估:利用细粒度数据集和创新标准
原文中文,约700字,阅读约需2分钟。发表于: 。本研究解决了文本到图像(T2I)扩散模型在知识编辑过程中面临的编辑数据集不足和评估标准不可靠的问题。我们提出了一种T2I知识编辑框架,包括创建细粒度评估数据集CAKE、引入自适应CLIP阈值标准以提高评估可靠性,以及提出了一种有效的知识编辑方法MPE,显著提升了编辑效果,推动了T2I知识编辑技术的可信评估。
最近的文本到图像生成模型在细节匹配上存在问题。SELMA通过自动生成数据集微调模型,提升了模型的忠实度。它利用上下文学习生成多技能文本提示,并通过专家融合构建多技能模型。实验显示,SELMA在多个基准数据集和人类评价中显著提升了语义对齐性和文本忠实度。SELMA自动收集的数据微调效果与真实数据相当,并能提升弱模型的生成质量。