小红花·文摘

本文介绍了FlexLLM系统，通过协同服务优化大型语言模型的推理和微调，降低GPU内存开销并提高效率。同时，研究了大型语言模型的安全性，提出隐私保护语言模型以保护数据隐私，并探讨了低延迟推断框架和容错推理算法，以提升用户交互体验和系统吞吐量。

MPC 最小化的安全 LLM 推理

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）的推理性能和能源成本，分析了不同规模模型在NVIDIA V100和A100 GPU上的表现。研究旨在优化模型配置，降低低资源语言处理成本，并提出新方法以提高模型效率。通过评估生成代码的可靠性，发现现有模型存在API误用问题，并开发了容错推理算法，提升了系统吞吐量，为高效的AI语言建模提供了重要见解。

尺寸越大越好吗？通过预算重新分配改进的 LLM 代码生成

BriefGPT - AI 论文速递 ·