机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。
DeepSeek研究员俞星凯用不到1200行代码复刻了vLLM,命名为Nano-vLLM,具备快速离线推理和良好的可读性。在H800硬件上,Nano-vLLM的性能超越原版,展现出高效性和简洁性。
DeepSeek推出FlashMLA,突破H800性能限制,显著降低计算成本。该解码内核专为Hopper GPU优化,支持BF16,提升内存和推理效率。MLA架构通过低秩压缩技术减少存储需求,推理成本大幅降低,受到全球关注。
完成下面两步后,将自动完成登录并继续当前操作。