七月论文审稿GPT第4版:通过paper-review数据集微调Mixtral-8x7b,对GPT4胜率超过80%
解决方案:训练时使用了--quantization_bit 4 和 --flash_attn True,这里也要使用统一的才行。有些得单独版本对齐,本人使用的是cuda11.8。更多见七月的《大模型商用项目审稿GPT微调实战》推理所需显存为34318MiB。
该文章讨论了使用专家来提高推理速度的方法。作者提出了一种使用两名专家的方法,以减少计算量。同时,作者还提到了使用更多专家可能会对模型产生负面影响。该模型是一种开放权重模型,具有宽松的许可证,并在成本/性能权衡方面表现最佳。