小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
视频生成推理加速实践:基于 torch.compile 的整图编译优化

视频生成模型的推理优化应从算子级转向计算图级,以提升整体执行效率。Self-Forcing模型采用逐块生成策略,降低计算复杂度。通过torch.compile实现整图编译,消除Graph Break,最终实现约47.6%的加速效果。

视频生成推理加速实践:基于 torch.compile 的整图编译优化

实时互动网
实时互动网 · 2026-01-28T07:51:08Z

本研究提出了BlockDance方法,旨在提高扩散变换器的推理速度。通过重用相邻时间步的相似时空特征,BlockDance在保持生成质量的同时,实现了25%至50%的加速效果。

BlockDance: Reusing Structurally Similar Spatio-Temporal Features to Accelerate Diffusion Transformers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

TOKENSWIFT框架通过优化模型加载、KV缓存管理和Token生成策略,实现超长文本生成效率提升,生成10万Token仅需90分钟,传统方法需5小时,确保生成质量与多样性,支持DeepSeek-R1和QwQ,具有3倍加速效果。

90分钟生成10万Token,新框架实现3倍无损加速超长文本生成,支持DeepSeek-R1和QwQ!

量子位
量子位 · 2025-03-12T04:36:31Z

本研究提出了一种新的动态草稿长度策略SVIP,旨在解决投机解码中固定草稿长度的问题。SVIP根据草稿词元分布的熵自适应调整草稿长度,实验结果表明其在主要基准测试中可实现最高20%的加速效果。

Draft Models Know When to Stop: A Self-Validating Length Strategy for Speculative Decoding

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-27T00:00:00Z

本文讨论了处理文本数据时的挑战和NVIDIA提供的解决方案,包括RAPIDS套件、Tensor Cores、NeMo框架、与Hugging Face的合作以及DGX系统和AI Enterprise软件解决方案。文章以加速情感分析为例,展示了RAPIDS相比传统方法的显著加速效果。

自然语言处理的挑战与语义救世主

DEV Community
DEV Community · 2024-09-07T19:48:59Z

本文介绍了一种新的Q-learning类型算法,通过使用经过熵正则化的软策略来减少学习零和随机博弈的计算成本,并验证了该算法收敛于纳什平衡并具有更快的加速效果。

线性可解的 MDP 与线性二次调节器的 Tsallis 熵正则化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-04T00:00:00Z

本文介绍了使用JuiceFS进行性能测试的步骤和结果,包括本地磁盘、社区版JuiceFS、企业版JuiceFS和社区版JuiceFS与Dragonfly的组合。测试结果显示,企业版JuiceFS在首次读取速度方面表现优异,而Dragonfly对JuiceFS的小文件读写性能有明显提升。总体而言,企业版JuiceFS在各方面都有明显的加速效果。文章还提供了关于JuiceFS企业版的部署和选择的建议。

JuiceFS 社区版、企业版、Dragonfly 集成性能测试及对比

陈少文的博客
陈少文的博客 · 2024-01-24T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码