小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
LaDiR:潜在扩散增强大型语言模型的文本推理

LaDiR(潜在扩散推理器)是一种新颖的推理框架,结合了连续潜在表示的表达能力与潜在扩散模型的迭代精炼能力。通过变分自编码器(VAE)构建的结构化潜在推理空间,LaDiR在数学推理和规划基准测试中展现出更高的准确性、多样性和可解释性,开辟了文本推理的新范式。

LaDiR:潜在扩散增强大型语言模型的文本推理

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-28T00:00:00Z
条件扩散中的组合泛化的局部机制

本文探讨了条件扩散模型的组合泛化能力,特别是长度泛化,即生成训练中未见过的对象图像。在CLEVR实验中,发现长度泛化在某些情况下可行,表明模型能够学习组合结构。研究表明,局部条件分数与组合泛化相关,成功的模型展现出局部条件分数,而失败的模型则没有。通过因果干预,可以在之前失败的模型中实现长度泛化。

条件扩散中的组合泛化的局部机制

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-28T00:00:00Z
Modular:前沿编码代理如何在MAX上构建视频扩散管道

Modular发布了Gemma 4,展示了AI编码代理在复杂系统工程任务中的能力。五个前沿模型成功重建了Wan 2.1文本到视频推理管道,证明了MAX图形API的有效性,并展示了调试和工程纪律的重要性,能够在新框架中构建完整的多模态推理系统。

Modular:前沿编码代理如何在MAX上构建视频扩散管道

Modular Blog
Modular Blog · 2026-04-16T00:00:00Z
ICLR 2026 | 对抗扩散压缩算法在真实世界视频重建任务中的应用

本文提出了一种改进的对抗扩散压缩方法(AdcVSR),用于真实世界视频超分辨率。该方法通过剪枝和轻量级一维卷积,显著降低模型参数和推理时间,同时保持视频质量。实验结果表明,AdcVSR在减少95%参数的同时,实现约8倍的速度提升,优化了细节生成与时域一致性。

ICLR 2026 | 对抗扩散压缩算法在真实世界视频重建任务中的应用

实时互动网
实时互动网 · 2026-03-10T03:21:37Z
RDT2——基于UMI数据实现零样本且跨本体的泛化:先训练VLM、后训练扩散动作专家、最后将扩散策略蒸馏为一步生成器(挑战叠衣服)

RDT2是一种新型机器人基础模型,旨在实现跨本体、物体和场景的零样本迁移能力。通过使用UMI数据集和三阶段训练策略,RDT2能够高效处理多样化的真实世界任务,提升机器人在未见物体和场景中的泛化能力。该模型在微调实验中表现优异,尤其在复杂操作和动态任务中,展现出显著的性能提升。

RDT2——基于UMI数据实现零样本且跨本体的泛化:先训练VLM、后训练扩散动作专家、最后将扩散策略蒸馏为一步生成器(挑战叠衣服)

结构之法 算法之道
结构之法 算法之道 · 2026-02-13T14:13:39Z
突破RNA设计瓶颈,上智院联合复旦、上交提出全球首个强化学习与潜扩散融合框架SOLD

抱歉,您提供的文本内容过于简短,无法进行有效的总结。请提供更详细的文章内容。

突破RNA设计瓶颈,上智院联合复旦、上交提出全球首个强化学习与潜扩散融合框架SOLD

机器之心
机器之心 · 2026-02-04T06:25:23Z
在线教程丨GLM-Image基于自回归+扩散解码器混合架构,精准理解指令写对文字

智谱与华为联合开源了新一代图像生成模型GLM-Image,该模型采用自回归与扩散解码器混合架构,提升了文字生成的准确性,支持多种比例的图像生成,成本低至0.1元,适合商业应用。用户可在HyperAI官网体验该模型。

在线教程丨GLM-Image基于自回归+扩散解码器混合架构,精准理解指令写对文字

HyperAI超神经
HyperAI超神经 · 2026-01-20T05:35:43Z
并行扩散架构突破极限,实现5分钟AI视频生成,「叫板」OpenAI与谷歌?

抱歉,您提供的文本内容过于简短,无法进行有效的总结。请提供更详细的文章内容。

并行扩散架构突破极限,实现5分钟AI视频生成,「叫板」OpenAI与谷歌?

机器之心
机器之心 · 2025-11-20T10:12:28Z
Instantvir:实时视频逆问题求解器,提炼扩散先验实现超快速重建

研究团队开发了InstantViR框架,成功解决了实时高质量视频重建的难题。该系统通过简化视频扩散模型,实现每秒超过35帧的处理速度,重建质量优于现有技术,为视频会议和直播等应用带来了新机遇。

Instantvir:实时视频逆问题求解器,提炼扩散先验实现超快速重建

实时互动网
实时互动网 · 2025-11-20T07:08:51Z
条件扩散中的组合泛化的局部机制

本文探讨了条件扩散模型的组合泛化能力,特别是长度泛化,即生成比训练时更多物体的图像。研究发现,模型在某些情况下能够实现长度泛化,表明它们有时学习到组合结构。成功的CLEVR模型展示了局部条件分数,而失败的模型则没有。强制局部条件分数的干预可以恢复失败模型的长度泛化能力。

条件扩散中的组合泛化的局部机制

Apple Machine Learning Research
Apple Machine Learning Research · 2025-10-09T00:00:00Z
DreamControl——结合扩散模型和RL的全身人形控制:利用在人体运动数据上训练得到的扩散先验,随后在仿真中引导RL策略完成特定任务

本文讨论了DreamControl,一种结合扩散模型与强化学习的全身类人机器人控制方法。该方法利用人类动作数据生成自然运动轨迹,提升机器人在复杂环境中的自主操作能力,解决了稳定性和协调性问题。研究表明,该方法在多种任务中有效,推动了人形机器人技术的发展。

DreamControl——结合扩散模型和RL的全身人形控制:利用在人体运动数据上训练得到的扩散先验,随后在仿真中引导RL策略完成特定任务

结构之法 算法之道
结构之法 算法之道 · 2025-10-03T16:01:40Z
TADA:一种改进的无训练增强动态扩散采样方法

本文介绍了一种新的扩散采样方法,其速度比现有最优解快186%。该方法无需训练,利用普通微分方程求解器,通过高维初始噪声生成更详细的样本,并控制细节水平。研究表明,该方法在多个预训练扩散模型上表现优异。

TADA:一种改进的无训练增强动态扩散采样方法

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-22T00:00:00Z

腾讯混元升级了AI绘画微调方法,通过Direct-Align和语义相对偏好优化(SRPO)显著提升了图像的真实感和美学评分,人工评估分数提高300%。新方法在32块H20上训练10分钟即可收敛,解决了传统模型的优化局限性,并支持在线调整奖励信号,生成图像质量显著提升。

腾讯混元升级AI绘画微调范式,在整个扩散轨迹上优化,人工评估分数提升300%

量子位
量子位 · 2025-09-15T06:39:40Z

本文探讨了人形机器人在运动追踪和控制方面的进展,重点介绍了BeyondMimic和UniTracker两个项目。BeyondMimic旨在解决真实环境中的运动跟踪和sim2real迁移问题,而UniTracker通过条件变分自编码器提升运动表现力和全局一致性。这些研究为人形机器人的高效控制和应用提供了新思路。

BeyondMimic——通过引导式扩散实现动作捕捉:基于Diffuse-CLoC构建扩散框架,可模仿动作、导航避障(含UniTracker的详解)

结构之法 算法之道
结构之法 算法之道 · 2025-08-28T13:29:54Z

本期讨论银狐病毒及安全漏洞管理,提出应对方案和高效漏洞运营体系的建议,包括安全意识培训、自动化规则和跨部门协作,强调事前准备和高效工具的重要性。

银狐病毒的扩散防控;如何建立高效闭环的漏洞运营体系 | FB甲方群话题讨论

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-08-28T07:03:45Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力

机器之心
机器之心 · 2025-08-17T11:49:16Z

ADiT模型通过结合潜在表示与Transformer技术,突破了原子系统建模的周期性与非周期性限制,显著提高了生成效率与可扩展性,为新材料和药物设计提供了重要支持。

入选ICML 2025,Meta/剑桥/MIT提出全原子扩散Transformer框架,首次实现周期性与非周期性原子系统统一生成

HyperAI超神经
HyperAI超神经 · 2025-07-14T06:14:45Z
屏蔽扩散:利用稀疏排斥生成新颖多样的图像

本文探讨了扩散模型生成图像的多样性问题,提出了一种通过引入数据驱动的排斥项来增强生成图像多样性和质量的方法。该方法在批量生成相同提示的图像时表现优异,同时保护特定图像集的多样性。

屏蔽扩散:利用稀疏排斥生成新颖多样的图像

Apple Machine Learning Research
Apple Machine Learning Research · 2025-07-11T00:00:00Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

ICML 2025 Spotlight | 清华朱军组&NVIDIA提出DDO:扩散/自回归模型训练新范式,刷新图像生成SOTA

机器之心
机器之心 · 2025-07-01T11:32:37Z
Cavia:可控相机的多视角视频扩散与视图集成注意力

近年来,图像到视频生成取得显著进展,但3D一致性和相机可控性问题仍未解决。为此,我们提出了Cavia框架,能够将输入图像转换为多个时空一致的视频,支持精确控制相机运动,同时保持物体运动。实验结果表明,Cavia在几何一致性和感知质量上优于现有方法。

Cavia:可控相机的多视角视频扩散与视图集成注意力

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-30T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码