机器之心 ·

图像生成迎来CoT时刻！港中文首次提出文生图的o1推理和Inference Scaling新范式！

💡 原文中文，约4300字，阅读约需11分钟。

📝

内容提要

AIxiv专栏促进了学术交流，报道了2000多篇内容。研究者探讨了思维链（CoT）在图像生成中的应用，提出了潜力评估奖励模型（PARM）及其增强版PARM++，有效提升了图像生成质量。实验结果表明，结合测试时验证和偏好对齐策略，生成图像的质量和文本一致性显著提高。

🎯

🔎

思维链（CoT）推理在图像生成领域的应用，展示了其在提升生成质量和文本一致性方面的潜力。研究表明，CoT推理与自回归图像生成的相似性使得这一策略能够有效地优化生成过程，尤其是在逐步生成和验证的环节。

潜力评估奖励模型（PARM）及其增强版PARM++的提出，为图像生成引入了新的评估机制。PARM通过清晰度判断和潜力性评估来优化生成质量，而PARM++则增加了自我修正机制，进一步提升了生成结果的准确性。这些创新为未来的图像生成研究提供了新的思路。

研究中结合测试时验证与直接偏好优化（DPO）策略，显著提升了生成图像的质量和文本一致性。实验结果显示，这种组合策略在GenEval指标上整体提升达27%，表明在图像生成任务中，综合多种优化方法能够取得更好的效果。

❓

CoT推理在图像生成中用于提升生成质量和文本一致性，研究者首次证明了其与文生图结合的可行性。

PARM通过清晰度判断、潜力性评估和最佳选择三步提升图像生成质量，而PARM++在此基础上引入自我修正机制，进一步优化生成结果。

通过构建288K条图文排名数据训练模型，使生成结果更符合人类偏好，初次DPO训练提升GenEval性能9%。

测试时验证策略结合了Outcome Reward Model和Process Reward Model，旨在提升生成图像的质量和一致性。

研究首次系统性探索了CoT推理在自回归图像生成中的适应性，提出了PARM和PARM++模型，有效提升了图像生成质量。

实验结果表明，结合测试时验证与DPO对齐策略，整体提升达27%，显著提高了生成图像的质量和文本一致性。

🏷️