机器之心 ·

统一自监督预训练！视觉模型权重无缝迁移下游任务，SiT收敛提速近47倍

💡 原文中文，约4400字，阅读约需11分钟。

📝

内容提要

最近研究提出统一自监督预训练（USP），通过在变分自编码器（VAE）潜在空间中进行掩码建模，提升了扩散模型的生成质量和收敛速度。USP在图像分类和分割等任务中表现优异，显著加速了模型训练。

🎯

关键要点

研究提出统一自监督预训练（USP），通过在变分自编码器（VAE）潜在空间中进行掩码建模，提升扩散模型的生成质量和收敛速度。
USP在图像分类和分割等任务中表现优异，显著加速了模型训练。
扩散模型与表征学习之间存在相互作用，视觉模型表征能够提升扩散模型的收敛速度和生成质量。
将视觉模型的预训练权重迁移到扩散模型中面临输入不匹配和VAE潜在空间的挑战。
USP方法通过在VAE潜在空间中进行潜在掩码建模预训练，权重可无缝迁移到下游任务。
USP在理解任务上表现竞争力，在生成任务中显著加速DiT和SiT模型收敛速度。
预训练-微调范式在图像生成领域的探索仍然有限，生成模型可以合成高质量图像并学习优越的视觉表征。
REPA方法存在高昂的计算成本和额外的教师网络问题，影响扩散模型的训练速度。
研究者提出的USP架构基于自编码器，在VAE潜空间中操作，使用简单的MSE损失进行预训练。
USP在图像生成和理解任务中均表现出色，消融实验表明不同组件对性能的影响。
VAE在图像理解任务中的应用效果良好，能够保留判别信息并对抗噪声。
USP的初始化策略比基于表征对齐的方法更高效，适用于同时提升分类和生成任务。
USP在图像修复任务中显著优于MAE，表明强表征能力对有效修复的重要性。

❓

延伸问答

统一自监督预训练（USP）是什么？

统一自监督预训练（USP）是一种通过在变分自编码器（VAE）潜在空间中进行掩码建模的预训练方法，旨在提升扩散模型的生成质量和收敛速度。

USP在图像分类和分割任务中的表现如何？

USP在图像分类和分割任务中表现优异，显著加速了模型训练，尤其在生成任务中加速DiT和SiT模型的收敛速度。

USP如何解决视觉模型权重迁移中的挑战？

USP通过在VAE潜在空间中进行潜在掩码建模预训练，使得预训练的权重可以无缝迁移到下游任务，克服了输入不匹配和结构不匹配的问题。

USP与REPA方法相比有什么优势？

USP不依赖额外的对齐损失，而是通过精心设计的初始化策略，使模型自动找到最适合线性分类的层，从而更高效地提升分类和生成任务的性能。

USP在图像生成任务中的具体效果如何？

在图像生成任务中，USP显著提升了生成质量，且在较短的训练时间内达到了更好的效果，相比于从头训练快11.7倍（DiT-XL）和46.6倍（SiT-XL）。

VAE在图像理解任务中的作用是什么？

VAE在图像理解任务中能够保留判别信息并对抗噪声，尽管直接在原始图像上进行分类可能更高效，但高质量的VAE编码仍能支持良好的分类表现。

🏷️

继续阅读

WPF 工业监控视图模型：实时转速、温度、压力曲线全搞定
本文介绍了一个基于WPF和LiveCharts的轻量级工业监控项目，模拟关键设备参数的实时监控。项目采用MVVM架构，具备实时数据显示、动态压力曲线和KP...
B-tree 深度解剖：从磁盘 I/O 模型到 boltdb 源码
自1972年提出以来，B-tree成为数据库和文件系统的核心数据结构，因其与磁盘I/O模型的契合而减少随机读次数，查找效率高，适合大规模数据。B+tree...
把 OpenClaw 从个人助手变成客服：一次信任模型的翻转
本文探讨如何将OpenClaw从个人助手转型为客服Agent，重点在会话隔离、多渠道接入、安全模型、知识库注入及客户记忆的局限。通过AWS架构实现安全隔离...
18家具身顶尖势力集结，RoboChallenge 打造全球最大具身模型竞技场
RoboChallenge完成第二批生态扩容，吸引8家顶尖企业入驻，推动具身智能产业发展。平台通过标准化真机测试提升评测体系，促进技术落地。新伙伴将提供硬...
教程汇总丨开源小模型综合智能水平追平GPT-5，一站测评Qwen 3.5/Gemma 4等热门模型
第三方评测机构Artificial Analysis发布报告称，Qwen3.5 27B和Gemma 4 31B在智能水平上接近GPT-5。Qwen3.5在...
A社发布Claude Opus 4.7 可以更长时间运行任务并严格遵循既定指令
人工智能公司A社推出Claude Opus 4.7模型，提升了长时间任务处理和视觉能力，超越GPT-5.4，但仍不及Claude Mythos。该模型内置...