小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

今晚19点,KTransformers项目将直播,介绍如何在本地使用2GPU+2CPU微调超大模型。清华大学的章明星教授和李沛霖将分享低成本LoRA微调技术及项目进展,欢迎预约观看。

今晚19点|2GPU+2CPU微调超大模型,带你上手开源KTransformers

量子位
量子位 · 2025-11-11T09:03:01Z
KTransformers + LLaMA-Factory + SGLang:低成本本地微调与推理

KTransformers、LLaMA-Factory和SGLang提供低成本、低内存的本地微调和推理方案。通过LoRA微调和GPU+CPU异构执行,用户可以在资源有限的情况下有效训练和推理超大规模MoE模型。这种集成使得在普通硬件上处理大模型成为可能,显著降低了GPU内存需求并提高了吞吐量。

KTransformers + LLaMA-Factory + SGLang:低成本本地微调与推理

Home | KVCache.ai
Home | KVCache.ai · 2025-11-01T00:00:00Z

KTransformers是趋境科技与清华大学联合研发的高性能异构推理框架,专注于大模型推理。该框架通过CPU与GPU协同优化算力利用,提升推理效率,支持低算力环境下的大模型应用。其论文入选国际顶会SOSP 2025,获得全球认可,并与主流框架SGLang合作,推动开发者创新。

KTransformers入选计算机系统顶会、与主流框架合作,趋境&清华让「异构」成为推理新范式

量子位
量子位 · 2025-10-23T01:34:03Z
KTransformers 一个新型的Transformers框架能够有效提高LLM的推理速度

KTransformers是一个新型Transformers框架,通过内核优化和并行策略显著提升LLM推理速度,尤其在MOE模型上表现优异。其用户友好的接口支持在资源受限的环境中部署,官方测试显示在14GB显存下可实现高达8.73 tokens/s的推理速度,速度提升可达27.79倍。

KTransformers 一个新型的Transformers框架能够有效提高LLM的推理速度

编译程序
编译程序 · 2025-02-24T14:25:06Z
KTransformers

文章内容缺失,无法提供有效摘要。请提供完整的文章文本以便进行总结。

KTransformers

Home | KVCache.ai
Home | KVCache.ai · 2024-07-27T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码