量子位 ·

李飞飞团队提出架构设计新思路！无需从头训练，直接“嫁接”预训练模型关键组件

💡 原文中文，约2600字，阅读约需6分钟。

📝

内容提要

李飞飞团队提出了一种名为“嫁接”的新方法，通过修改预训练模型组件，节省计算资源并验证新架构设计。研究表明，使用不到2%的预训练算力仍能保持模型性能，并提升生成速度，适合资源有限的场景。

🎯

🔎

李飞飞团队提出的“嫁接”方法在资源有限的情况下尤为适用，特别适合小型研究团队或初创企业。这种方法不仅降低了计算成本，还能快速验证新架构的有效性，帮助研究者在短时间内进行多次实验，推动技术进步。

尽管“嫁接”方法展现出良好的性能，但研究仅在DiT-XL/2模型上进行，结论的普适性受到限制。未来的研究需要在更多模型上验证这一方法，以确保其广泛适用性和可靠性。

研究表明，使用不到2%的预训练算力仍能保持模型性能，这为高效利用计算资源提供了新思路。研究者在设计新模型时，应关注如何在性能和资源消耗之间找到最佳平衡，以实现更高效的模型开发。

❓

“嫁接”方法是通过修改预训练模型组件来节省计算资源，直接利用预训练模型作为基础进行新架构设计。

该方法使用不到2%的预训练算力，仍能保持模型性能并提升生成速度，适合资源有限的场景。

研究主要关注DiTs模型，特别是基于DiT-XL/2的测试平台。

通过激活蒸馏和轻量级微调两阶段架构编辑法来验证新架构的有效性。

应用“嫁接”后，生成速度提高了1.43倍，生成图像的质量下降小于2%。

研究仅在DiT-XL/2模型上进行验证，且只测试了替换成Hyena-X和SWA的效果，结论的普适性受限。

🏷️