小红花·文摘

本研究分析了现有1位大型语言模型在推理速度和能耗方面的不足，提出了bitnet.cpp软件堆栈。通过开发快速无损推理内核，提升了不同处理器上的推理速度，实现了最高6.17倍的加速，增强了1位LLM的本地部署潜力。