小红花·文摘

本文讨论了微软的Phi模型在小语言模型（SLM）家族中的优秀性能和多模态能力。Phi模型具有不同的参数规模和能力，包括Phi-1、Phi-1.5、Phi-2、Phi-3和Phi-3.5等多个代系。文章还介绍了Phi模型的需求和应用场景，以及一些“黑科技”如LongRoPE、MoE混合专家、DeepSpeed和Flash Attention等。此外，文章还提到了Phi模型与CLIP模型的结合以及Flash Attention技术的应用。