麻省理工学院与Symbotic的研究人员开发了一种新方法,利用深度强化学习协调仓库机器人,避免拥堵并提升效率。该系统实时调整优先级,实现25%的吞吐量提升,适应不同环境,未来计划扩展至更大仓库。
Workato的AI研究实验室与DigitalOcean合作,利用NVIDIA Dynamo和vLLM优化推理性能。通过引入KV感知路由,显著提高了GPU的吞吐量和响应速度,分别提升67%和降低79%的延迟,从而降低了推理成本和所需GPU数量。
浙大与上海AI Lab提出的邻近自回归建模(NAR)通过“下一个邻域预测”显著提升了视觉生成的效率和质量。NAR模型在多个任务中实现了13.8倍的吞吐量提升,减少了生成步骤,特别在高分辨率图像和视频生成中表现出优势。
本文提出了SqueezeAttention方法,通过动态优化关键值缓存,显著减少大型语言模型的内存占用(高达70%)并提升吞吐量(最高2.2倍)。该方法结合多种稀疏化算法,保持了与原始模型相当的性能,适用于资源受限环境。研究还探讨了无损压缩技术和自适应KV缓存,以进一步提高推理效率和性能。
完成下面两步后,将自动完成登录并继续当前操作。