小红花·文摘

人工智能系统学习保持仓库机器人交通顺畅

MIT News - Artificial intelligence ·

DigitalOcean的Agentic推理云如何通过NVIDIA GPU为Workato实现67%的推理成本降低

The DigitalOcean Blog ·

Ling 2.0 采用 FP8 混合精度训练，显著提升了训练效率和显存利用率。细粒度量化减少了量化误差，确保模型效果接近 BF16。与 LLaMA 3.1 和 Qwen3 比较，Ling-mini-2.0 在多 GPU 环境下吞吐量提升达 30-120%。该方案为低精度训练提供了有效路径，解决了计算资源和能耗挑战。

聊一聊我们最近开源的 Ling 2.0 原生 FP8 混合精度训练

千千 ·

浙大与上海AI Lab提出的邻近自回归建模（NAR）通过“下一个邻域预测”显著提升了视觉生成的效率和质量。NAR模型在多个任务中实现了13.8倍的吞吐量提升，减少了生成步骤，特别在高分辨率图像和视频生成中表现出优势。

13.8倍吞吐提升！浙大上海AI Lab等提出视觉生成新范式，从“下一个token”到“下一个邻域”

量子位 ·

本文提出了SqueezeAttention方法，通过动态优化关键值缓存，显著减少大型语言模型的内存占用（高达70%）并提升吞吐量（最高2.2倍）。该方法结合多种稀疏化算法，保持了与原始模型相当的性能，适用于资源受限环境。研究还探讨了无损压缩技术和自适应KV缓存，以进一步提高推理效率和性能。

基于 L2 范数的高效 KV 缓存压缩策略

BriefGPT - AI 论文速递 ·