DuoAttention框架通过将大语言模型的注意力头分为检索头和流式头,显著提高了长上下文推理的效率,降低了内存消耗,同时保持了准确性。该技术在多轮对话和长文档处理等任务中表现优异,推动了大语言模型的发展。
完成下面两步后,将自动完成登录并继续当前操作。