小红花·文摘

论文提出了一种“块注意力”机制，提高了RAG模型的效率和速度。通过将输入文本分块处理，专注于最相关部分，减少了推理延迟。实验表明，该方法在多项基准测试中表现优异，推理延迟降低50%。尽管对全局上下文处理不足，但为高效低延迟AI系统开发做出了重要贡献。