炒菜、雕刻、绘画、汽车人变形！MakeAnything用扩散Transformer解锁多任务过程生成

机器之心 ·

炒菜、雕刻、绘画、汽车人变形！MakeAnything用扩散Transformer解锁多任务过程生成

💡 原文中文，约3500字，阅读约需9分钟。

📝

内容提要

新加坡国立大学的MakeAnything项目利用Diffusion Transformer和非对称LoRA技术，实现高质量的程序化序列生成，解决了步骤逻辑、外观一致性和数据瓶颈等问题，展现出良好的泛化能力。

🎯

关键要点

新加坡国立大学的MakeAnything项目利用Diffusion Transformer和非对称LoRA技术，实现高质量的程序化序列生成。
MakeAnything解决了步骤逻辑、外观一致性和数据瓶颈等问题，展现出良好的泛化能力。
项目团队包括研究生成式AI的博士生和本科生，具有丰富的相关经验。
生成步骤教程面临多任务数据稀缺、步骤间逻辑连贯性不足和跨领域泛化能力有限的挑战。
MakeAnything构建了最大规模的多领域数据集，涵盖21类任务，包含超过24,000条标注序列。
通过激活DiT的上下文能力，确保生成结果的逻辑连贯性和外观一致性。
非对称LoRA设计平衡通用知识与领域特性，显著提升跨任务泛化能力。
采用扩散Transformer（DiT）作为基础模型，通过蛇形序列布局强化模型对步骤顺序的感知。
ReCraft模型引入图像条件，利用变分自编码器（VAE）确保生成的中间帧与目标图像一致。
MakeAnything在未见过的任务上也展现出一定的泛化性能，能够处理不同类型的雕刻和绘画。
评估生成结果的连贯性和有用性采用CLIP Score和GPT4-o进行。
实验结果显示MakeAnything在图文一致性、逻辑连贯性和有用性上领先于其他方法。
不对称LoRA的消融实验表明其在小数据集上有效缓解过拟合问题。
MakeAnything标志着AI从“生成结果”迈向“生成过程”的关键一步，期待更多开发者探索过程生成的可能性。

❓

延伸问答

MakeAnything项目的主要技术是什么？

MakeAnything项目主要利用Diffusion Transformer和非对称LoRA技术。

MakeAnything如何解决步骤逻辑和外观一致性的问题？

通过激活DiT的上下文能力和采用蛇形序列布局，确保生成结果的逻辑连贯性和外观一致性。

MakeAnything项目的多领域数据集包含哪些任务？

数据集涵盖21类任务，包括绘画、手工艺、乐高组装、变形金刚变形等，包含超过24,000条标注序列。

非对称LoRA在MakeAnything中的作用是什么？

非对称LoRA设计平衡通用知识与领域特性，显著提升跨任务泛化能力。

MakeAnything在新任务上的表现如何？

MakeAnything在未见过的任务上展现出一定的泛化性能，能够处理不同类型的雕刻和绘画。

如何评估MakeAnything生成结果的连贯性和有用性？

采用CLIP Score和GPT4-o进行评估，确保生成结果符合人类偏好。

🏷️

继续阅读

我用彩色配件定制了一台MacBook Neo
苹果的MacBook Neo是最便宜、色彩丰富且易于维修的笔记本电脑。用户可以自行更换彩色配件，尽管成本较高。作者尝试定制Neo，替换触控板、底壳和键帽，...
论独立游戏的起步立项方法论
在当下这个互联网时代做独立游戏，是幸运的，得益于各路大佬的经验分享，诸如引擎选择、外包渠道、素材获取，编程整合 […]
保时捷Cayenne Coupe Turbo甚至会让911车主感到紧张
保时捷新款Cayenne Coupe Turbo更紧凑且更强大，拥有1139马力和1106磅-英尺的扭矩，成为史上最强保时捷。其电动版本加速迅猛，0-60...
技嘉在COMPUTEX 2026展示多款生活美学主机
技嘉在COMPUTEX 2026展示了STEALTH系列和WOOD系列主机。STEALTH系列采用B850M AORUS主板和RTX 5090显卡，展现简...
技嘉于COMPUTEX 2026以“ENTER INFINITY”为主题开展
技嘉在COMPUTEX 2026以“ENTER INFINITY”为主题庆祝成立40周年，推出AORUS 40周年INFINITY系列产品，包括旗舰主板、...
华为云发布Agentic AI系列新品打造智能时代“硅基黑土地”
华为云在上海INSPIRE大会上发布了Agentic Infra新范式及多款Agentic AI产品，旨在推动企业智能化转型。大会还推出“行业AI梦工厂”...