RAGO: System Performance Optimization for Retrieval-Augmented Generation Services
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出RAGSchema以优化检索增强生成(RAG)服务的性能。通过分析不同RAG工作负载,发现显著的性能差异。最终推出的RAGO框架使每个芯片的QPS提高至2倍,首次令牌延迟降低55%。
🎯
关键要点
- 本研究提出RAGSchema以优化检索增强生成(RAG)服务的性能。
- 通过分析不同RAG工作负载,发现显著的性能差异。
- 最终推出的RAGO框架使每个芯片的QPS提高至2倍。
- 首次令牌延迟降低55%。
➡️