小红花·文摘

本文介绍了多种大型语言模型（LLM）优化技术，如LongMem框架、InfLLM、LLMem、LightSeq和UniMem，旨在提高长文本处理的效率和准确性。研究提出了在有限硬件条件下的微调方案和移动设备上的推理引擎Transformer-Lite，显著提升了推理速度，满足了处理更长输入序列的需求。

高效地使用 8 个 GPU 在 1 百万序列长度上训练 70 亿层次语言模型

BriefGPT - AI 论文速递 ·

本文介绍了在移动设备上高效部署大型语言模型（LLM）的四种优化技术：动态模型推断、操作符优化、FP4量化和基于子张量的技术，并开发了Transformer-Lite引擎。该引擎显著提升了速度，研究表明量化可以减少内存需求但可能影响准确性。文章还探讨了MobileLLM模型系列在智能手机上进行高效推理的潜力。

利用 MLLM-NPU 设备实现每秒 1000 标记的本地语言模型推理

BriefGPT - AI 论文速递 ·