小红花·文摘

视频生成推理加速实践：基于 torch.compile 的整图编译优化

实时互动网 ·

本研究提出了BlockDance方法，旨在提高扩散变换器的推理速度。通过重用相邻时间步的相似时空特征，BlockDance在保持生成质量的同时，实现了25%至50%的加速效果。

BlockDance: Reusing Structurally Similar Spatio-Temporal Features to Accelerate Diffusion Transformers

BriefGPT - AI 论文速递 ·

TOKENSWIFT框架通过优化模型加载、KV缓存管理和Token生成策略，实现超长文本生成效率提升，生成10万Token仅需90分钟，传统方法需5小时，确保生成质量与多样性，支持DeepSeek-R1和QwQ，具有3倍加速效果。

90分钟生成10万Token，新框架实现3倍无损加速超长文本生成，支持DeepSeek-R1和QwQ！

量子位 ·

本研究提出了一种新的动态草稿长度策略SVIP，旨在解决投机解码中固定草稿长度的问题。SVIP根据草稿词元分布的熵自适应调整草稿长度，实验结果表明其在主要基准测试中可实现最高20%的加速效果。

Draft Models Know When to Stop: A Self-Validating Length Strategy for Speculative Decoding

BriefGPT - AI 论文速递 ·

本文讨论了处理文本数据时的挑战和NVIDIA提供的解决方案，包括RAPIDS套件、Tensor Cores、NeMo框架、与Hugging Face的合作以及DGX系统和AI Enterprise软件解决方案。文章以加速情感分析为例，展示了RAPIDS相比传统方法的显著加速效果。

自然语言处理的挑战与语义救世主

DEV Community ·

本文提出了协调投机采样（HASS）方法，解决大语言模型解码中的接受率问题，通过协调训练与解码的目标和上下文，显著提高了接受率，无额外推理开销。实验结果显示在多个数据集上具有显著加速效果。

协调的投机采样

BriefGPT - AI 论文速递 ·

该论文介绍了提高深度神经网络加速效果的方法，包括整合不同层面的改进技术和调整参数。研究发现模型大小、准确性和推理时间之间没有必然关联，压缩技术的加速效果受硬件平台影响。编译器自动调优可能改变最佳算法的选择，因此需要协同设计来优化加速深度学习的解决方案。

压缩结构张量代数

BriefGPT - AI 论文速递 ·

本文介绍了一种新的Q-learning类型算法，通过使用经过熵正则化的软策略来减少学习零和随机博弈的计算成本，并验证了该算法收敛于纳什平衡并具有更快的加速效果。

线性可解的 MDP 与线性二次调节器的 Tsallis 熵正则化

BriefGPT - AI 论文速递 ·

本文介绍了使用JuiceFS进行性能测试的步骤和结果，包括本地磁盘、社区版JuiceFS、企业版JuiceFS和社区版JuiceFS与Dragonfly的组合。测试结果显示，企业版JuiceFS在首次读取速度方面表现优异，而Dragonfly对JuiceFS的小文件读写性能有明显提升。总体而言，企业版JuiceFS在各方面都有明显的加速效果。文章还提供了关于JuiceFS企业版的部署和选择的建议。

JuiceFS 社区版、企业版、Dragonfly 集成性能测试及对比

陈少文的博客 ·