小红花·文摘

使用Graviton机型推理LLM模型实践指南

亚马逊AWS官方博客 ·

De-DSI 是一种新框架，结合大型语言模型与分布式信息检索，提升查询与文档匹配效率。通过微分搜索索引和数据集分割，增强可扩展性。Speculative Streaming 提高解码速度，DISCO 动态优化推断长度。新推理方案通过自我推测解码加速 LLM，无需额外模型，保持输出质量。整体方法在效率和速度上显著提升。

大型语言模型的分布式推理

BriefGPT - AI 论文速递 ·

该文章介绍了一种新颖的推理方案，用于加速大型语言模型（LLMs），通过草稿和验证两个阶段的过程实现。该方案不需要额外的神经网络训练和额外的内存占用，是一种即插即用和经济高效的推理加速解决方案，加速比最高可达1.73倍。

Ouroboros：利用大型模型增强的推测解码

BriefGPT - AI 论文速递 ·

生成遇见验证：智能并行自动校正解码加速大型语言模型推理

BriefGPT - AI 论文速递 ·

自然语言处理领域近年来通过创新的提示技术取得了显著进展。本研究分析了提示执行流程，提出了结构增强型大型语言模型推理方案的分类，并比较了不同设计选择的性能和成本差异。同时探讨了提示与知识库等大型语言模型生态系统其他部分之间的理论基础和关系。

巨型语言模型的推理解释解释能力如何？

BriefGPT - AI 论文速递 ·

Hydra: 针对 Medusa 解码的顺序依赖性起草头部

BriefGPT - AI 论文速递 ·

BiTA: 大型语言模型的无损加速的双向调整

BriefGPT - AI 论文速递 ·

该文介绍了一种新颖的自我推测解码推理方案，用于加速大型语言模型，无需辅助模型。该方法通过草稿和验证两个阶段的过程来实现，不需要额外的神经网络训练和内存占用，加速比最高可达1.73倍。

高效译码的投机流水线执行

BriefGPT - AI 论文速递 ·

该研究提出了一种新颖的推理方案，用于加速大型语言模型，无需辅助模型。该方法通过两个阶段的过程来实现，是一种即插即用和经济高效的推理加速解决方案。加速比最高可达1.73倍。

草案和验证：通过自我推理解码实现无损大语言模型的加速

BriefGPT - AI 论文速递 ·