量子位 ·

榨干GPU性能，中兴Mariana（马里亚纳）突破显存壁垒

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

中兴Mariana技术突破显存限制，提出高性能分布式KV索引，优化KV Cache存储，提升吞吐量和降低延迟，满足大模型推理需求。通过细粒度并发控制和自适应缓存策略，Mariana为CXL硬件生态奠定了基础，推动AI技术普及。

🎯

🔎

随着大语言模型的普及，显存需求不断增加，成为限制模型扩展的主要瓶颈。Mariana技术通过高性能分布式KV索引和自适应缓存策略，提供了一种有效的解决方案，能够在高并发场景下提升吞吐量并降低延迟，满足大规模推理的需求。

CXL作为一种新兴的高速互联技术，为解决内存瓶颈提供了新的可能性。Mariana的设计理念与CXL硬件生态相适应，未来有望通过CXL技术实现更高效的存储解决方案，推动AI技术的普及与应用，尤其是在大模型推理领域。

Mariana通过细粒度并发控制和定制数据布局，显著提升了KV Cache的性能。实验结果表明，与现有方案相比，Mariana在读写吞吐和延迟方面都有显著优势，适合用于大规模分布式推理集群，展示了其在实际应用中的巨大潜力。

❓

中兴Mariana技术的主要创新点包括细粒度并发控制、自适应缓存策略和定制的数据布局，旨在提升KV Cache的吞吐量和降低延迟。

Mariana通过分布式共享KV存储技术和细粒度并发控制，优化了KV Cache存储，降低了对显存的需求。

CXL技术为Mariana提供了高带宽、低延迟的硬件支持，帮助解决内存瓶颈，并适应未来的硬件生态。

Mariana的设计理念与底层硬件解耦，使其核心算法能够无缝迁移到未来的CXL硬件生态中。

Mariana在大模型推理中显著提升了预加载阶段的性能，能够支持高并发请求，优化了推理效率。

Mariana通过细粒度并发控制和自适应缓存策略，减少了延迟并提高了吞吐量，优化了KV Cache的性能。

🏷️