Home | KVCache.ai ·

KT-FT v0.6.1：实现从MoE微调到本地服务的完整闭环

💡 原文英文，约1400词，阅读约需6分钟。

📝

内容提要

KT-FT v0.6.1更新了MoE SFT后端，提升了训练速度和内存使用效率。新版本支持将训练好的适配器无缝集成到SGLang中，并优化了本地服务流程。用户可通过转换脚本将适配器分为专家和非专家LoRA，确保有效运行，目标是实现从本地微调到服务的完整闭环。

🎯

🔎

KT-FT v0.6.1通过重构MoE SFT后端，显著提升了训练速度和内存效率。相比于之前的版本，训练性能提高了6到12倍，CPU和GPU的内存使用量也大幅降低。这意味着用户可以在相同硬件上处理更长的上下文，适合需要高效训练的应用场景。

新版本支持将训练好的适配器分为专家和非专家LoRA，确保在SGLang中有效运行。用户需注意，适配器的输出目录包含两个LoRA工件，分别为非专家和专家LoRA，确保在实际服务中能够正确调用和使用。

KT-FT v0.6.1的安装过程更加简洁，用户只需通过pip命令安装所需组件。这一改进降低了设置摩擦，使得新用户能够更快上手，提升了整体使用体验。

❓

KT-FT v0.6.1更新了MoE SFT后端，提升了训练速度和内存使用效率，并支持将训练好的适配器无缝集成到SGLang中。

用户可以通过转换脚本将适配器分为专家和非专家LoRA，以确保有效运行。

v0.6.1通过重构后端，提升了训练速度，CPU内存使用减少到约一半，GPU内存也进一步降低。

用户可以通过命令pip install 'ktransformers[sft]==0.6.1'来安装所需组件，安装过程更简洁。

KT-FT v0.6.1的目标是实现从本地微调到服务的完整闭环，确保训练的适配器能够在SGLang中有效服务。

可以通过将适配器加载回LLaMA-Factory，运行一些交互提示来确认适配器是否有效。

🏷️