💡
原文英文,约400词,阅读约需2分钟。
📝
内容提要
作者在运行Mistral模型时遇到数据格式问题,经过多次调试和参数调整,最终成功启动。尽管面临GPU内存不足和代码错误,经过量化和修正,模型正常运行,训练损失逐渐降低,作者感到满意。
🎯
关键要点
- 作者在运行Mistral模型时遇到数据格式问题,75%的数据是列表而非字符串。
- 经过多次调试,作者决定使用字典格式,模型开始有所改善。
- 训练过程中,发现TrainingArguments版本不支持某些参数,最终简化了代码。
- 模型最初在CPU上运行,作者安装了accelerate以使用GPU,但遇到版本冲突。
- Mistral在fp16模式下需要14 GiB的显存,而作者的GPU只有8 GiB,决定使用4-bit量化。
- 设置LoRA后,训练再次开始,但出现grad_norm为NaN的问题,最终通过去掉.model.half()解决。
- 模型成功启动,训练损失逐渐降低,作者感到满意。
❓
延伸问答
在运行Mistral模型时遇到了什么数据格式问题?
作者发现75%的数据是列表而非字符串。
作者是如何解决模型不支持某些参数的问题的?
作者简化了代码,只保留了必要的参数。
为什么模型最初在CPU上运行而不是GPU?
因为作者在安装accelerate后遇到了版本冲突,导致模型未能在GPU上运行。
Mistral模型在fp16模式下需要多少显存?
Mistral在fp16模式下需要14 GiB的显存。
作者如何解决grad_norm为NaN的问题?
作者通过去掉.model.half()来解决grad_norm为NaN的问题。
模型训练的最终结果如何?
模型成功启动,训练损失逐渐降低,作者感到满意。
➡️