小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

文章讨论了PD分离与引擎功能的适配,介绍了投机解码及其在大型自回归模型中的应用。通过引入小模型进行多次自回归,提升推理效率。探讨了Eagle 3的实现细节及其对推理性能的影响,得出礼貌性输入不影响推理性能的结论。

SpS, Eagle3: 礼貌一点会影响推理性能么?

学习让我快乐
学习让我快乐 · 2025-07-19T16:00:00Z
Workers AI获得速度提升、批量工作负载支持、更多LoRA、新模型和全新仪表板

自2023年9月推出以来,Workers AI团队致力于提升平台质量,推出了快速推理的投机解码、异步批处理API和扩展的LoRA支持,显著提升了推理速度和用户体验。

Workers AI获得速度提升、批量工作负载支持、更多LoRA、新模型和全新仪表板

The Cloudflare Blog
The Cloudflare Blog · 2025-04-11T13:00:00Z
AAAI 2025 | 大模型推理加速新范式:加速比高达3.51倍、成本降至1/3

翼支付的研究成果《Falcon》提出了一种增强的半自回归投机解码框架,显著提升了大型语言模型的推理速度,达到了2.91-3.51倍的加速比。该方法通过改进的投机采样和专门设计的解码树,提高了模型的并行性和输出质量,已在多个实际业务中成功应用。

AAAI 2025 | 大模型推理加速新范式:加速比高达3.51倍、成本降至1/3

机器之心
机器之心 · 2025-01-08T06:15:47Z

本研究提出了一种新的动态草稿长度策略SVIP,旨在解决投机解码中固定草稿长度的问题。SVIP根据草稿词元分布的熵自适应调整草稿长度,实验结果表明其在主要基准测试中可实现最高20%的加速效果。

Draft Models Know When to Stop: A Self-Validating Length Strategy for Speculative Decoding

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-27T00:00:00Z

本文介绍了一种通过知识蒸馏和投机解码技术(DistillSpec)加速大型语言模型推理的方法。该方法在多项基准测试中实现了10-45%的加速,并有效降低了解码延迟。结合轻量级草稿模型和新采样机制,显著提高了解码效率,实验结果显示在多种模型架构中优于现有方法。

通过特征采样和部分对齐蒸馏提升无损推测解码能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-28T00:00:00Z
ACL 2024 | 美团技术团队精选论文解读

美团技术团队在ACL 2024收录的4篇论文涵盖了训练成本优化、投机解码、代码生成优化、指令微调等技术领域。这些论文是与高校、科研机构合作的成果,介绍了早期退出投机解码、图结构投机解码、DolphCoder和指令微调等方法。这些方法在提高文本生成速度和代码生成性能方面取得了显著成果。

ACL 2024 | 美团技术团队精选论文解读

美团技术团队
美团技术团队 · 2024-08-09T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码