小红花·文摘

AI驱动的技术正在渗透到人们的日常生活中，其中语言大模型（LLM）是核心应用之一。本文介绍了如何在NVIDIA Ampere架构上映射混合输入的矩阵乘法，并提出了解决内存消耗的软件技术。实验结果显示，该方法在性能上接近硬件峰值。

OneFlow深度学习框架 ·

生成式AI的发展面临着语言大模型（LLM）推理性能和成本的挑战。本系列文章将探讨LLM推理的不同层面及其挑战，并提供有关技术和性能指标的见解。本文主要关注文本生成的初始化和生成阶段。

OneFlow深度学习框架 ·

本文通过实证分析展示了实际LLM模型的FLOPS分配情况，并与理论分析进行对比，为理解和优化语言大模型的性能提供了有益见解。

OneFlow深度学习框架 ·

本文介绍了加快语言大模型推理速度的综合指南，包括分阶段推测性解码、指导性生成、前向解码和提示查找解码等优化策略。同时提到了稀疏注意力和非Transformer架构等训练时间优化方法。随着硬件改进和推理优化技巧的发展，语言大模型的性能将不断提升。

OneFlow深度学习框架 ·