小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Ψ0——人形全身VLA:先用800h人类自视角视频数据和30h的真实机器人交互数据预训练VLM,再后训练MM-DiT,最后用AMO做下肢RL跟踪

本文介绍了Ψ0模型,该模型结合大规模人类视频数据与真实机器人数据,训练出一种用于类人机器人灵巧运动的视觉-语言动作模型,能够有效提取运动先验,实现复杂的全身控制。

Ψ0——人形全身VLA:先用800h人类自视角视频数据和30h的真实机器人交互数据预训练VLM,再后训练MM-DiT,最后用AMO做下肢RL跟踪

结构之法 算法之道
结构之法 算法之道 · 2026-03-21T11:15:57Z
X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA:VLM做多模态感知,DiT-style做动作生成

本文介绍了一种新型机器人学习模型X-VLA,采用软提示技术以提升跨具身机器人学习的适应性和泛化能力。通过引入可学习的嵌入,X-VLA有效解决了不同硬件和任务环境下的异质性问题,增强了模型在多样化数据集上的表现。该模型在多个基准测试中表现优异,展现出在灵巧操作和适应新领域方面的强大能力。

X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA:VLM做多模态感知,DiT-style做动作生成

结构之法 算法之道
结构之法 算法之道 · 2026-02-21T05:00:30Z
DualVLN——基于像素目标点的双系统VLN基础模型:VLM做全局规划且预测中期路径,DiT策略头依托高频RGR输入和“来自VLM的低频潜在特征”生成动作轨迹

本文回顾了作者创业11年的历程,并介绍了上海AI LAB发布的DualVLN模型。该模型结合视觉-语言导航推理与实时控制,采用双系统架构,分别负责高层推理和低层动作执行,提升了动态环境中的导航能力。实验结果表明,DualVLN在多种场景中表现优异,成功率高,导航误差低。

DualVLN——基于像素目标点的双系统VLN基础模型:VLM做全局规划且预测中期路径,DiT策略头依托高频RGR输入和“来自VLM的低频潜在特征”生成动作轨迹

结构之法 算法之道
结构之法 算法之道 · 2026-01-19T10:48:45Z
DiT-Air:重新审视文本到图像生成中扩散模型架构设计的效率

本文研究了扩散变换器(DiTs)在文本到图像生成中的效率,分析了架构选择和训练策略。结果表明,标准DiT在性能上与专门模型相当,但参数效率更高。通过层级参数共享策略,DiT-Air和DiT-Air-Lite在保持竞争力的同时,模型尺寸减少了66%。DiT-Air在GenEval和T2I CompBench上表现优异。

DiT-Air:重新审视文本到图像生成中扩散模型架构设计的效率

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-11T00:00:00Z

Crazy Time Live van Evolution – Waar je dit popul […]

Crazy Time Live van Evolution Waar je dit populaire live dealerspel kunt spelen.203

运维派
运维派 · 2025-11-21T13:51:24Z

MySQL是流行的关系型数据库管理系统,广泛应用于WEB开发。Linux是开源操作系统,Shell脚本用于简化管理。Docker用于开发和运行应用,Tomcat是轻量级Web服务器。Jenkins是持续集成工具,Redis和memcached是高效的数据库和缓存系统。Kubernetes在云计算运维中至关重要,帮助管理容器化应用。

Crazy Time Live van Evolution Waar je dit populaire live dealerspel kunt spelen.45

运维派
运维派 · 2025-11-19T21:38:31Z

Stort udvalg af spilleautomater og live casino – er htt […]

Stort udvalg af spilleautomater og live casino – er httpsverdekaszino.orgda dit nye heldige sted med

运维派
运维派 · 2025-11-16T15:33:22Z

字节跳动的InfinityStar方法在视频生成方面超越了DiT,速度提升10倍,单GPU可在一分钟内生成5秒720p视频。其核心在于时空金字塔建模,结合静态与动态信息,提高了生成效率和质量。

何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS’25 Oral

量子位
量子位 · 2025-11-14T05:43:26Z
AnimeColor:基于DiT的动漫视频上色 | ACM MM 2025

本文提出了一种新型动画上色模型ColorAnime,基于视频扩散模型,能够根据参考图像自动将草图序列转化为高质量彩色动画。该模型通过高低层次颜色提取器实现颜色一致性和细粒度控制,克服了现有方法在大幅运动场景中的不足,实验结果表明其在颜色准确性和视频质量方面表现优异。

AnimeColor:基于DiT的动漫视频上色 | ACM MM 2025

实时互动网
实时互动网 · 2025-09-28T02:15:33Z

本文探讨了大型行为模型(LBM)在波士顿动力人形Atlas中的应用,强调其在复杂任务中的表现。LBM通过多任务数据集训练,提升了机器人在动态环境中的自主互动能力。研究表明,LBM在微调新任务时仅需少量数据,并且在应对环境变化时表现更为稳健。尽管取得了一定进展,仍面临评估标准化和数据收集等挑战。

LBM——大型行为模型助力波士顿人形Atlas完成多任务灵巧操作:CLIP编码图像与语义,之后DiT去噪扩散生成动作

结构之法 算法之道
结构之法 算法之道 · 2025-08-29T13:36:25Z

DiT模型受到质疑,网友认为其数学和形式上存在错误,甚至怀疑是否使用了Transformer。作者谢赛宁回应称,科学进步需要发现模型的不足,强调实证方法的重要性,并反驳质疑,指出Tread模型与DiT无关,且DiT在生成效果上仍具优势。

DiT突遭怒喷,谢赛宁淡定回应

量子位
量子位 · 2025-08-20T08:05:07Z

机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。

DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学

机器之心
机器之心 · 2025-08-20T04:54:49Z

机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。

告别Transformer!北大、北邮、华为开源纯卷积DiC:3x3卷积实现SOTA性能,比DiT快5倍!

机器之心
机器之心 · 2025-07-11T08:37:52Z

普林斯顿大学与Meta合作推出LinGen框架,通过MATE模块将视频生成复杂度降低至线性,显著提升生成效率。LinGen在视频质量上优于DiT,生成速度最高可加速15倍,且适应性强,能处理更长的token序列。

单GPU搞定高清长视频生成,效率×10!引入Mamba机制突破DiT瓶颈 | 普林斯顿&Meta

量子位
量子位 · 2025-06-18T08:23:59Z

机器之心数据服务现已上线,提供高效稳定的数据获取服务,简化数据爬取流程。

李飞飞团队新作:DiT不训练直接改架构,模型深度减半,质量还提高了

机器之心
机器之心 · 2025-06-10T09:16:16Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

智象未来x商汤大装置:全栈赋能全球首个开放使用视频生成DiT模型

机器之心
机器之心 · 2025-04-28T06:56:27Z

智象未来推出全球首个开放使用的DiT模型,依托商汤强大的AI基础设施,实现快速模型迭代。该模型高效、灵活、稳定,广泛应用于影视和教育领域,推动文生视频技术发展。

全栈AI基础设施支撑,跑出全球首个开放使用视频生成DiT模型

量子位
量子位 · 2025-04-28T03:15:07Z
EC-DIT:通过自适应专家选择路由扩展扩散变换器

本文提出了一种新的混合专家模型(EC-DIT),通过优化专家选择路由以适应不同文本图像的复杂度。EC-DIT可扩展至970亿参数,显著提升训练收敛性和生成质量,并在文本对齐评估中获得71.68%的最佳GenEval分数。

EC-DIT:通过自适应专家选择路由扩展扩散变换器

Apple Machine Learning Research
Apple Machine Learning Research · 2025-04-15T00:00:00Z
挖掘DiT的位置解耦特性,Personalize Anything免训练实现个性化图像生成

清华大学和北京航空航天大学的研究团队提出了“Personalize Anything”架构,旨在解决个性化图像生成中的细节还原、交互控制和应用拓展等问题。该技术无需训练,能够高效生成高质量图像,具备良好的可控性和扩展性,适用于多种任务,推动个性化图像生成的发展。

挖掘DiT的位置解耦特性,Personalize Anything免训练实现个性化图像生成

机器之心
机器之心 · 2025-03-25T04:33:13Z

英伟达发布的GR00T N1模型结合视觉与语言指令,通过双系统架构实现机器人动作生成。该模型利用真实与合成数据进行训练,采用Eagle-2 VLM作为推理模块,DiT模块用于高频动作输出。团队计划在上海建立具身算法开发团队,招聘经验丰富的开发者和实习生。

GR00T N1——英伟达开源的通用人形VLA:VLM Eagle-2慢思考、DiT快反应,且可类似LAPA利用海量的无标注视频做训练

结构之法 算法之道
结构之法 算法之道 · 2025-03-19T16:28:26Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码