小红花·文摘 - 小红花技术领袖俱乐部

本研究提出SimulS2S-LLM方法，解决大语言模型在实时语音翻译中的并行推理问题，通过离线训练和策略指导，实现高质量的语音即时翻译。

SimulS2S-LLM：解锁并行推理的语音大语言模型用于语音翻译

BriefGPT - AI 论文速递 ·

本研究提出Seesaw推理引擎，通过动态模型重分片技术优化大型语言模型的并行推理策略，最高提升吞吐量1.78倍。

Seesaw: Achieving High Throughput in Large Language Model Inference through Dynamic Model Resharding

BriefGPT - AI 论文速递 ·

什么是推理并行性及其工作原理

什么是推理并行性及其工作原理

Cloud Native Computing Foundation ·

本研究提出了一种新颖的迭代并行推理机制（IPRM），有效解决复杂视觉推理和问答的挑战，显著提高推理效率，推动视觉问答系统设计的变革。

Iterative and Parallel Learning Reasoning in Complex Visual Reasoning Scenarios

BriefGPT - AI 论文速递 ·