迷途小书童 ·

大模型跑在端侧，到底有多难？我们踩过的那些坑

💡 原文中文，约3400字，阅读约需8分钟。

📝

内容提要

端侧AI面临内存不足、算子不兼容、性能瓶颈和散热问题等挑战。尽管技术进步，实际应用仍需克服困难。然而，隐私保护和低延迟需求推动了端侧AI的发展，未来值得期待。

🎯

🔎

端侧AI面临的首要挑战是内存不足。主流大语言模型的参数量巨大，导致在内存有限的设备上难以运行。开发者需要通过量化、剪枝等手段减小模型体积，但这可能会影响模型的精度。因此，在选择模型时，开发者需权衡性能与精度的关系，避免因过度压缩导致应用效果不佳。

算子不兼容是端侧AI开发中的重大障碍。不同的NPU对算子的支持程度不同，导致在迁移模型时可能出现性能下降。开发者需提前了解目标平台的算子支持情况，并做好相应的适配工作，以确保模型在不同硬件上的稳定性和效率。

端侧AI的生态系统碎片化严重，各家芯片厂商的工具链和SDK各不相同，增加了开发的复杂性。开发者在选择硬件时，需考虑其生态兼容性，以减少后续开发和维护的难度。同时，厂商应努力提供更统一的开发环境，以促进端侧AI的普及和应用。

❓

端侧AI面临内存不足、算子不兼容、性能瓶颈和散热问题等挑战。

大模型参数庞大，导致芯片内存不足，且算子不兼容影响性能。

尽管面临挑战，端侧AI的未来依然乐观，隐私保护和低延迟需求推动其发展。

可以通过降低推理精度、限制生成长度或分块推理等方式来应对散热问题。

每家芯片厂商都有自己独特的工具链和SDK，导致生态系统不统一。

模型量化可能导致精度下降，且难以预测在哪些任务上会出现问题。

🏷️