Petals:在家中就能运行P2P大语言模型
💡
原文中文,约1700字,阅读约需4分钟。
📝
内容提要
Petals是一个社区运行的系统,可以协作运行大型语言模型,比Offloading更快。Petals只在服务器之间发送少量数据,而Offloading会将数百GB的NN权重复制到GPU VRAM上。您可以使用任何微调和采样方法,通过模型执行自定义路径,或查看其隐藏状态。Petals可以使用多种生成文本的方法,并根据自己的任务对它们进行微调。
🎯
关键要点
-
Petals是一个社区运行的系统,允许用户共享GPU以协作运行大型语言模型。
-
Petals以协作方式运行Llama和BLOOM等模型,加载模型的一小部分进行推理或微调。
-
Llama 2的单批推理速度可达6步/秒,BLOOM-176B约为1步/秒,比Offloading快10倍。
-
并行推理速度可达数百个token/秒,适合构建聊天机器人和其他交互式应用程序。
-
Offloading是另一种运行大型语言模型的方法,但速度较慢,需将大量NN权重复制到GPU内存。
-
Petals通过互联网通信,仅在服务器之间发送少量数据(NN激活),因此更快。
-
Petals提供API的舒适性和PyTorch的灵活性,支持多种微调和采样方法。
-
用户可以通过简单的命令在GPU上托管Stable Beluga 2等模型,并进行文本生成和微调。
➡️