爱范儿 ·

苹果正在与英伟达合作，想让 AI 的响应速度更快

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

苹果与英伟达合作推出ReDrafter技术，显著提升大语言模型的推理速度。该技术通过RNN草稿模型、动态树注意力算法和知识蒸馏训练，提高推理效率，减少GPU资源需求，适用于多种硬件平台。

🎯

关键要点

苹果与英伟达合作，旨在加速大语言模型的推理性能。
ReDrafter是一种开源的推测解码技术，旨在改善传统自回归LLM的推理效率。
ReDrafter整合到英伟达的TensorRT-LLM中，支持多种推测解码方法。
ReDrafter通过RNN草稿模型、动态树注意力算法和知识蒸馏训练三项技术加速推理过程。
RNN草稿模型使用循环神经网络预测tokens序列，提高预测准确性，减少LLM调用次数。
动态树注意力算法优化束搜索，减少需要验证的tokens数量，提高计算资源利用率。
知识蒸馏技术将复杂模型的知识转移到更小的模型中，提高推理效率。
基准测试显示，集成ReDrafter的TensorRT-LLM在NVIDIA H100 GPU上推理速度提高2.7倍。
在M2 Ultra Metal GPU上，ReDrafter实现2.3倍的推理速度提升。
ReDrafter减少对GPU资源的需求，使LLM在资源受限环境中高效运行，扩展了使用可能性。

❓

延伸问答

ReDrafter技术的主要目标是什么？

ReDrafter技术的主要目标是加速大语言模型的推理性能，改善传统自回归LLM的推理效率。

ReDrafter是如何提高推理速度的？

ReDrafter通过RNN草稿模型、动态树注意力算法和知识蒸馏训练三项技术来加速推理过程。

动态树注意力算法的作用是什么？

动态树注意力算法优化束搜索，减少需要验证的tokens数量，从而提高计算资源利用率。

ReDrafter在不同硬件上的推理速度提升如何？

在NVIDIA H100 GPU上，ReDrafter的推理速度提高了2.7倍，而在M2 Ultra Metal GPU上提高了2.3倍。

知识蒸馏技术在ReDrafter中的应用是什么？

知识蒸馏技术将复杂模型的知识转移到更小的RNN草稿模型中，提高推理效率。

苹果与英伟达的合作对AI领域有什么影响？

苹果与英伟达的合作将提升大语言模型的推理效率，降低计算成本和用户端延迟，扩展LLM的应用可能性。

🏷️

标签

GPU资源 ReDrafter ai 大语言模型推理速度硬件平台英伟达苹果

➡️

继续阅读

苹果的新AI照片编辑工具大多有效，利弊兼具
苹果在iOS 27中推出了新的AI照片编辑工具，包括“清理”、“扩展”和“空间重构”。“清理”工具可以有效去除照片中的干扰物；“扩展”允许用户扩展照片边缘...
2026 AI开发现状报告：AI生成代码首超50%，开发者开始掏钱买单
2026年AI开发报告显示，开发者代码中54%由AI生成，较去年翻倍。Claude Code成为最受欢迎的编程助手，但仍存在代码质量和幻觉问题。尽管对AI...
两万美元一颗CPU：英伟达Vera八月来华，中国客户先测三百台
英伟达推出新型Vera中央处理器，预计八月到货，旨在应对美国出口限制导致的高端AI芯片出货停滞。Vera专为代理型AI设计，性能比竞品快1.8倍，单颗售价...
Terraform MCP Server Enables AI Assistants to Interact with Terraform Infrastructure
HashiCorp has announced the general availability of the Terraform MCP Server,...
为什么AI检索和排名需要超越向量搜索
文章探讨了AI检索架构的演变，强调张量在复杂多维数据结构中的重要性。随着AI应用的复杂化，检索从简单的邻近问题转变为排名和决策问题。张量提供了灵活的框架，...
JetBrains能否在AI进一步扩大IDE技能差距之前缩小这一差距？
JetBrains推出课程创作者计划，旨在缩小在线编程教育与行业实践之间的差距。该计划允许教育者在JetBrains IDE中嵌入实际编码练习，强调学生在...