小红花·文摘

本文介绍了FlexLLM系统，通过协同服务优化大型语言模型的推理和微调，降低GPU内存开销并提高效率。同时，研究了大型语言模型的安全性，提出隐私保护语言模型以保护数据隐私，并探讨了低延迟推断框架和容错推理算法，以提升用户交互体验和系统吞吐量。