机器之心 ·

扩散模型训练方法一直错了！谢赛宁：Representation matters

💡 原文中文，约3700字，阅读约需9分钟。

📝

内容提要

纽约大学研究者提出了一种名为REPA的技术，通过对齐自监督视觉表征与扩散Transformer，提升了扩散模型的训练效率和生成质量。REPA减少了迭代次数，尤其在无分类器引导下，生成质量达到最佳。该技术通过最大化预训练表征与隐藏状态的相似性，实现高效对齐。

🎯

❓

REPA技术的主要目的是通过对齐自监督视觉表征与扩散Transformer，提升扩散模型的训练效率和生成质量。

REPA通过最大化预训练表征与扩散Transformer隐藏状态的相似性，减少了迭代次数，从而提高了训练效率。

使用REPA的模型在没有无分类器引导的情况下，生成质量显著优于普通模型，达到FID=1.42的最佳结果。

REPA通过将预训练的自监督视觉表征蒸馏到扩散Transformer中，使用简单的正则化方法实现对齐。

REPA在大型模型中提供了显著的加速，生成和线性评估方面带来更快的增益。

REPA技术的研究背景是为了应对训练扩散模型时需要学习高质量内部表征的挑战，借助自监督视觉编码器的外部表征来提升性能。

🏷️

Visual Studio Code 1.123
Visual Studio Code 1.123版本更新了多个功能，包括在Agents窗口中继续聊天、集成浏览器区域截图和支持仅发送附件的请求。修复了Py...
亚马逊的搜索栏将生成无法购买的AI生成产品
亚马逊更新了搜索栏，用户可以根据描述查看AI生成的服装和家居商品图片，帮助用户在记不清具体名称时找到所需商品。该功能将于安卓和iOS应用上线。
游记-千岛湖
千岛湖是杭州附近的美丽旅游胜地，以清澈的湖水和众多小岛著称。游客可以享受自然风光，进行水上活动，体验宁静的环境。
介绍Gemma 4 12B：一个统一的无编码多模态模型
Gemma 4 12B是最新的多模态智能模型，专为笔记本电脑设计，具备强大的推理能力和音频输入。它采用无编码架构，减少延迟和内存使用，支持在16GB内存的...
认识Dreambeans，一个与您重要事物相连接的应用
谷歌实验室推出了Dreambeans，这是一个利用AI技术生成个性化故事的工具。它通过连接用户的Gmail和日历等应用，提供灵感和建议，帮助用户聚焦重要事...
YouTube获得行业首个短视频MRC认证
YouTube连续第六年获得媒体评级委员会（MRC）的品牌安全认证，并首次将认证扩展至YouTube Shorts，成为首个获得短视频品牌安全认证的平台。...