七月论文审稿GPT第4.2版:通过15K条paper-review数据微调Llama2 70B(含各种坑)
💡
原文中文,约7600字,阅读约需19分钟。
📝
内容提要
本文记录了作者在微调LLaMA2 70B模型过程中遇到的报错信息及解决方法,包括GPU占用和数据截断等问题。作者成功微调了5K条数据,并进行了推理,结果超过了GPT4-1106模型。作者计划使用更大的15K数据集进行微调。
🎯
关键要点
- 作者在微调LLaMA2 70B模型过程中遇到GPU占用和数据截断等问题。
- 成功微调了5K条数据,并进行推理,结果超过了GPT4-1106模型。
- 计划使用更大的15K数据集进行微调。
- 第一部分记录了通过1.5K条数据微调LLaMA2 70B的过程,包括GPU配置和报错信息。
- 训练过程中显存最高占用为570GB,建议使用80GB*8卡训练。
- 第二部分记录了5000条数据的训练过程,遇到flash_attn频繁出问题。
- 修改数据集以添加padding,解决了部分报错。
- 使用DeepSpeed Zero-3优化训练,解决了显存不足的问题。
- 通过二分法定位并剔除引发异常的数据,最终成功使用5089条数据完成训练。
- 推理结果显示5K数据的效果超过了GPT4-1106。
- 作者计划提高数据质量,并准备使用15K数据进行微调。
➡️