北京大学和浙江大学的研究者提出了TIDE框架,实现了扩散语言模型的跨架构蒸馏,将16B MoE教师模型压缩至0.6B学生模型,提升了代码生成任务的性能和推理速度,并显著降低了内存需求。TIDE通过双轴调度、上下文增强和跨分词器匹配等技术,解决了蒸馏过程中的关键挑战,使得dLLM在消费级硬件上部署成为可能。
FLUX.1 Kontext[dev]是Black Forest Labs开源的图像编辑模型,拥有120亿参数,支持消费级硬件。它能快速进行图像编辑和生成,性能接近GPT-4o,用户可通过简单指令高效修改图像。
本文介绍了Bitsandbytes和QLoRA两种方法,可以将模型压缩到4位精度,适用于大多数HF模型。虽然无法进行纯4位训练,但可以使用参数高效微调方法(PEFT)在模型上进行微调。作者还介绍了这种量化方法对消费级硬件上训练大型模型的影响,并提供了相关实验结果。
完成下面两步后,将自动完成登录并继续当前操作。