本文讨论了微软的Phi模型在小语言模型(SLM)家族中的优秀性能和多模态能力。Phi模型具有不同的参数规模和能力,包括Phi-1、Phi-1.5、Phi-2、Phi-3和Phi-3.5等多个代系。文章还介绍了Phi模型的需求和应用场景,以及一些“黑科技”如LongRoPE、MoE混合专家、DeepSpeed和Flash Attention等。此外,文章还提到了Phi模型与CLIP模型的结合以及Flash Attention技术的应用。
本研究提出了名为Harmony的框架,结合了视觉-语言训练和自监督学习,能在各种视觉任务中表现优异。与其他方法相比,Harmony在评估任务上表现更好。
完成下面两步后,将自动完成登录并继续当前操作。