本文提出了一种新颖的自我推测解码方案,旨在加速大型语言模型(LLMs)的推理过程。该方法通过草稿和验证两个阶段生成高质量输出,无需额外训练或内存占用。实验结果表明,该方案在效率上可实现最高1.73倍的加速,显著提升生成质量并节省计算资源。
韩国科学家开发了名为“KOALA”的人工智能工具,可在廉价硬件上快速生成图像。他们使用知识蒸馏技术将开源图像生成模型压缩为只有7亿个参数的小型模型。该工具可在较弱的GPU上运行,仅需8GB RAM。该团队已在arXiv上发表论文,并通过Hugging Face提供了他们的工作成果。
完成下面两步后,将自动完成登录并继续当前操作。