小红花·文摘

本研究提出VerbDiff模型，旨在解决文本到图像扩散模型在生成交互图像时的偏见问题。该模型能够更好地捕捉语义，生成高质量图像，实验结果表明其在复杂交互处理上优于传统方法。