Apple Machine Learning Research ·

简单ReFlow：快速流模型的改进技术

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

扩散和流匹配模型在生成性能上表现优异，但采样步骤多，影响推理速度。ReFlow程序通过简化生成轨迹加速采样，但需迭代训练，导致样本质量下降。我们提出七项改进，并在CIFAR10、AFHQv2和FFHQ上进行实验，结合技术后在快速生成中实现了最先进的FID分数。

🎯

关键要点

扩散和流匹配模型在生成性能上表现优异，但采样步骤多，影响推理速度。
ReFlow程序通过简化生成轨迹加速采样，但需迭代训练，导致样本质量下降。
为减轻样本质量下降，我们检查ReFlow的设计空间，并指出之前启发式实践中的潜在问题。
我们提出七项改进，针对训练动态、学习和推理进行优化。
在CIFAR10、AFHQv2和FFHQ上进行的详细消融研究验证了这些改进。
结合所有技术，我们在快速生成中实现了最先进的FID分数，CIFAR10为2.23/1.98，AFHQv2为2.30/1.91，FFHQ为2.84/2.67，ImageNet-64为3.49/1.74，且仅需9次神经函数评估。

❓

延伸问答

ReFlow程序的主要功能是什么？

ReFlow程序通过简化生成轨迹来加速采样。

ReFlow在训练过程中面临什么问题？

ReFlow是一个迭代过程，通常需要在模拟数据上训练，导致样本质量下降。

文章中提出了哪些改进措施？

文章提出了七项改进，针对训练动态、学习和推理进行优化。

这些改进在实验中表现如何？

在CIFAR10、AFHQv2和FFHQ上进行的消融研究验证了这些改进的有效性。

ReFlow程序的生成性能如何？

结合所有技术，ReFlow在快速生成中实现了最先进的FID分数。

在不同数据集上，ReFlow的FID分数是多少？

CIFAR10为2.23/1.98，AFHQv2为2.30/1.91，FFHQ为2.84/2.67，ImageNet-64为3.49/1.74。

🏷️

继续阅读

流媒体的未来：技术如何塑造观看体验
流媒体行业在过去十年经历了巨大变革，成为主要媒体消费方式。AI和机器学习提升了用户体验和内容创作效率，5G技术将进一步改善流媒体质量。尽管面临内容盗版和信...
Claude Pro订阅无法再使用Opus系列模型？A社称过时信息忘记删除
关于Claude Pro订阅无法使用Opus系列模型的消息引发用户不满。A公司澄清这是过时信息，从2026年1月起，Claude Pro已支持在Claud...
OpenMOSS发布MOSS-Audio：一个用于语音、声音、音乐和时间感知音频推理的开源基础模型
MOSS-Audio是一个开源音频理解模型，集成了语音转录、情感分析和环境声音理解等功能。其模块化设计包括音频编码器和大型语言模型，采用DeepStack...
派早报：阿里巴巴发布视频生成模型 HappyHorse 1.0 等
阿里巴巴于4月27日发布了视频生成模型HappyHorse 1.0，面向专业创作者和普通用户开放测试。该模型支持文本和图像生成视频，最长可生成15秒的视频...
李飞飞引爆的3D新技术，为什么这家深圳公司两年前就“玩腻”了？
李飞飞宣布3D高斯泼溅技术可在移动端流式传输，尽管技术成熟，但3D内容尚未成为主流创作工具。关键在于解决用户对3D技术应用的疑问，行业需建立基础设施以融入...
取之有度，用之有节-从Harness视角破解Agent应用Token爆炸难题
本文探讨了OpenClaw框架中的Token爆炸问题及其解决方案。随着用户增加，Token消耗激增，文章分析了Token浪费的原因，包括注入型、重复型和黑...