稳定一致性调优：理解和改进一致性模型

本研究针对一致性模型在训练和调优过程中存在的局限性进行探讨，提出了一种新的框架，通过将去噪过程建模为马尔可夫决策过程，并利用时间差分学习进行价值估计。提出的稳定一致性调优方法显著提升了在CIFAR-10和ImageNet-64等基准测试上的性能，尤其是在ImageNet-64上实现了新的一致性模型状态-of-the-art绩效。

本研究探讨了一致性模型训练的局限性，提出通过马尔可夫决策过程进行去噪，并利用时间差分学习进行价值估计。新方法在CIFAR-10和ImageNet-64上显著提升了性能，尤其在ImageNet-64上达到了最新的最佳效果。

一致性一致性模型去噪性能提升时间差分学习马尔可夫决策过程