小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
DiT-Air:重新审视文本到图像生成中扩散模型架构设计的效率

本文研究了扩散变换器(DiTs)在文本到图像生成中的效率,分析了架构选择和训练策略。结果表明,标准DiT在性能上与专门模型相当,但参数效率更高。通过层级参数共享策略,DiT-Air和DiT-Air-Lite在保持竞争力的同时,模型尺寸减少了66%。DiT-Air在GenEval和T2I CompBench上表现优异。

DiT-Air:重新审视文本到图像生成中扩散模型架构设计的效率

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-11T00:00:00Z
关于促进扩散变换器泛化能力的归纳偏差

本文探讨了扩散变换器(DiT)模型的归纳偏差对泛化能力的影响。研究发现,局部注意力窗口与泛化能力密切相关,通过限制注意力窗口并注入局部注意力,可以显著提高模型的泛化和生成质量,尤其在训练数据较少的情况下。优化DiT的归纳偏差有助于提升性能。

关于促进扩散变换器泛化能力的归纳偏差

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-22T00:00:00Z

本研究提出了一种有效的超参数调优方法μP,应用于扩散变换器,显著提升了模型的收敛速度和扩展性,尤其在文本到图像生成任务中表现突出,同时降低了调优成本。

Efficiently Scaling Diffusion Transformers with μP

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出通过扩散变换器提升图像理解与生成模型的训练效率和生成质量。采用顺序预训练策略,开发的BLIP3-o模型在基准测试中表现优异,并开放源代码和数据集以促进研究。

BLIP3-o:一种完全开放的统一多模态模型—架构、训练与数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-14T00:00:00Z

本研究提出了JointDiT模型,通过扩散变换器增强RGB和深度的联合建模。采用自适应调度权重和不平衡时间步采样策略,JointDiT显著提升了图像生成和深度估计的性能,展现了在多种生成任务中的应用潜力。

JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

本研究提出了一种基于扩散变换器的新方法,有效解决表格数据时间序列生成的问题。实验结果表明,该方法在多个数据集上显著优于以往的研究。

Diffusion Transformer for Generating Time Series from Tabular Data

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-10T00:00:00Z

本研究提出了一种新的解耦设计的扩散变换器(DDT),有效解决了训练周期和推理步骤过长的问题。实验结果显示,随着模型规模的增加,编码器性能显著提升,DDT-XL/2在ImageNet上达到了最先进的FID值,并加快了推理速度。

解耦扩散变换器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-08T00:00:00Z

本研究解决了多模态扩散变换器中自注意力层对位置嵌入和查询-键相似性的依赖,提出了一种无训练的图像编辑框架,提升了图像编辑质量并保持了原始语义内容。

FreeFlux:理解和利用基于RoPE的MMDiT中的层特定角色以实现多功能图像编辑

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究提出了BlockDance方法,旨在提高扩散变换器的推理速度。通过重用相邻时间步的相似时空特征,BlockDance在保持生成质量的同时,实现了25%至50%的加速效果。

BlockDance: Reusing Structurally Similar Spatio-Temporal Features to Accelerate Diffusion Transformers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

该研究提出了TIDE框架,增强了扩散变换器(DiTs)在生成模型中的应用,通过稀疏自编码器提取层次特征,提升了重建性能,并展示了良好的图像编辑和风格转换能力。

时序感知稀疏自编码器用于可解释扩散变换器在图像生成中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z

本研究提出了TaylorSeer方法,以解决扩散变换器的高计算需求问题。该方法通过泰勒级数近似特征高阶导数,显著提升了图像和视频合成的效率,尤其在高加速比下实现了近乎无损的加速效果。

From Reuse to Prediction: Accelerating Diffusion Models with TaylorSeer

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z
Wan-Video在Replicate上的Wan-2.1-1.3b模型初学者指南

Wan-2.1-1.3b是由Wan-Video维护的先进视频生成模型,能够根据文本描述生成5秒480p的视频。该模型采用扩散变换器架构,支持中英文输入,具备良好的视觉质量和运动连贯性,用户可调整参数以控制生成过程。

Wan-Video在Replicate上的Wan-2.1-1.3b模型初学者指南

DEV Community
DEV Community · 2025-03-01T07:28:10Z

本研究提出DiTAR方法,结合语言模型与扩散变换器,有效解决了生成连续语音的计算负荷与效果问题,显著提高了生成效率,降低了计算需求,并在零样本语音生成中表现优异。

DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-06T00:00:00Z

该研究提出了DiffRatio-MoD框架,解决了扩散变换器在资源受限设备上的高延迟和内存低效问题。通过动态计算路由,令牌计算需求可适应性调整,显著提升了生成质量与效率的平衡。实验结果表明,该方法在文本到图像生成和图像修复任务中优于现有技术。

Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-22T00:00:00Z

本研究提出PAD框架,通过扩散变换器统一图像预测与机器人动作生成,显著提升机器人控制性能和泛化能力。

Predicting Through Action: Learning Visual Strategies via Joint Denoising Process

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-27T00:00:00Z

本研究提出了跳跃分支(Skip-DiT),旨在提高扩散变换器在图像和视频生成中的效率和特征平滑性。实验结果显示,Skip-DiT的速度提升了1.5倍,性能仅略有下降,为生成质量的改善提供了新方案。

Accelerating Visual Diffusion Transformers through Skip Branching

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-26T00:00:00Z

本研究探讨扩散变换器(DiTs)的隐含空间特性,提出编码-识别-操作框架,通过文本提示实现图像的精确语义控制,推动零样本细粒度图像编辑技术的发展。

扩散变换器中的潜在空间分离使得精确的零样本语义编辑成为可能

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-12T00:00:00Z

本研究提出了一种新颖的时空引导扩散变换器概率模型(st-DTPM),有效解决了双时段PET影像的延迟扫描问题,显著提升了影像预测的准确性。

时空引导扩散变换器概率模型用于延迟扫描PET图像预测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

本研究探讨了扩散变换器(DiT)的模型规模和数据需求,首次确认了DiT的规模定律,展示了预训练损失与计算量的幂律关系。这些定律帮助确定最优模型规模和数据需求,并预测文本到图像生成的损失,为评估模型性能和数据质量提供基准。

扩散变换器的规模定律

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z

本研究提出RoboDual系统,结合通用和专用策略,解决机器人操作系统的泛化和效率问题。通过扩散变换器实现多步执行,提升高层任务理解和离散行动生成,在真实环境中性能提升26.7%。

面向协同、普遍、有效的双系统机器人操作研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码