小红花·文摘

直播连麦的技术原理

实时互动网 ·

本文提出了一种高效的大型语言模型推理解决方案，通过简化模型结构和使用自适应KV缓存等方法，显著降低系统延迟并提高吞吐量。在Intel GPU上，令牌延迟降低高达7倍，吞吐量提升27倍。研究还介绍了PagedAttention算法和SparQ Attention，以减少内存消耗和提高推理效率，同时保持生成质量。

ALISA: 加速大型语言模型推理的稀疏感知键值缓存

BriefGPT - AI 论文速递 ·

本文研究了同时语音翻译的输出窗口大小、系统延迟以及重写程度对读者可读性和理解度的影响。实验结果表明，字幕布局或闪烁对理解度的影响较小，对源语言知识有限的用户与零知识用户的稳定性和延迟方面具有不同的偏好。

提高同时语音翻译的稳定性：一种可控修订解码方法

BriefGPT - AI 论文速递 ·

编剧对话与自发对话中的交谈反馈：比较分析

BriefGPT - AI 论文速递 ·