The Cloudflare Blog ·

在 Workers AI 上使用 LoRA 运行微调模型

💡 原文英文，约2500词，阅读约需9分钟。

📝

内容提要

Cloudflare宣布在Workers AI上推出了LoRA的开放测试版。LoRA是一种细调方法，可以将细调权重和预训练模型分开，从而减少可训练参数和GPU内存需求，提高效率和成本效益。Workers AI非常适合运行LoRA，可以将多个LoRA适配器插入一个基础模型。Cloudflare构建了一个多租户的LoRA服务系统，优化了GPU资源利用率，并提供低推理延迟。公司计划在未来支持更多模型和任务类型，并致力于提供一键细调服务。

🎯

关键要点

Cloudflare在Workers AI上推出LoRA的开放测试版，允许使用预训练的LoRA适配器进行细调推理。
LoRA是一种细调方法，通过将细调权重与预训练模型分开，减少可训练参数和GPU内存需求，提高效率。
Workers AI适合运行LoRA，可以将多个LoRA适配器插入一个基础模型，优化GPU资源利用率。
细调是通过使用额外数据继续训练AI模型，以提高生成结果与数据集的相似性。
传统细调方法会直接修改预训练模型的权重，而LoRA则保持预训练模型不变，仅添加少量额外参数。
LoRA适配器的大小通常只有几兆字节，相比完全细调模型的数十GB，便于分发和使用。
Workers AI支持用户自定义LoRA适配器，用户可以使用Hugging Face库进行训练。
多租户LoRA服务系统通过Punica CUDA内核设计和全局缓存优化，解决了GPU资源利用率的问题。
未来Cloudflare计划支持更多模型和任务类型，并提供一键细调服务，提升AI模型的个性化和优化。
开发者可以通过AI Gateway记录提示和响应，以便使用生产数据进行模型细调。

❓

延伸问答

LoRA是什么，它的主要优点是什么？

LoRA是一种细调方法，通过将细调权重与预训练模型分开，减少可训练参数和GPU内存需求，提高效率和成本效益。

如何在Workers AI上使用LoRA进行微调？

用户可以使用Hugging Face库训练LoRA适配器，并将其与Workers AI平台上的预训练模型结合使用，创建自定义模型权重和配置文件。

LoRA适配器的大小通常是多少？

LoRA适配器的大小通常只有几兆字节，相比完全细调模型的数十GB，便于分发和使用。

Cloudflare如何优化GPU资源以支持多租户LoRA服务？

Cloudflare通过Punica CUDA内核设计和全局缓存优化，解决了GPU资源利用率的问题，从而支持多租户LoRA服务。

LoRA与传统细调方法有什么不同？

LoRA不直接修改预训练模型的权重，而是保持其不变，仅添加少量额外参数，从而减少计算需求和内存使用。

Cloudflare未来对LoRA的计划是什么？

Cloudflare计划在未来支持更多模型和任务类型，并提供一键细调服务，以提升AI模型的个性化和优化。

🏷️

继续阅读

麻省理工学院研究人员教AI模型解读图表
MIT和IBM研究人员开发了ChartNet数据集，包含超过一百万种多样化图表，旨在提升视觉语言模型对图表的理解能力。该数据集通过合成数据生成，帮助小型企...
Ubuntu 计划为所有文本字段添加 AI 语音输入功能
Ubuntu 26.10 将推出语音输入功能，用户可以通过说话代替打字。该功能由 AI 语言解析模型支持，旨在提升可访问性和便利性。此外，Canonica...
现代版掩耳盗铃：Instagram AI漏洞并未被修复只是从前端隐藏界面且被黑客继续利用
Meta旗下的Instagram存在AI账户恢复助手漏洞，黑客可通过该助手重置密码和修改邮箱，导致多个账户被盗。尽管Meta声称已修复漏洞，但实际上只是隐...
谷歌宣布网站/发布商可以主动退出谷歌搜索AI概览不允许AI概览调用内容
谷歌宣布网站可主动退出其搜索的AI概览和AI模式，以保护网站流量和广告收入。退出后不会影响自然搜索流量，目前仅在英国测试，未来将推广至全球。此举是对因AI...
Google DeepMind 发布 Gemma 4 12B：一款无需编码器的多模态模型，支持原生音频
Google DeepMind 发布了 Gemma 4 12B，这是一个无编码器的多模态模型，支持文本、图像、音频和视频处理。该模型在消费级笔记本电脑上运...
直播间/语聊房AI互动助手如何助力新人主播熬过”开播前3分钟”
直播间的活跃感难以维持，导致新用户流失和主播冷启动困难。即构科技的AI助手通过实时话术推荐和互动发言推送，帮助主播和观众快速融入，提高互动效率，解决冷场问...