研究探讨了金融领域应用大语言模型时,单一任务微调的局限性。结果显示,多任务微调显著提升模型性能,小型模型Phi-3-Mini在财务基准上超过了GPT-4-o。实验验证了该方法的有效性,并分析了通用指令数据和数学数据对性能的提升作用。
NVIDIA加速了Microsoft的Phi-3 Mini开放语言模型,并使用NVIDIA TensorRT-LLM进行优化。Phi-3 Mini具有10倍大模型的能力,可用于研究和商业用途。Phi-3 Mini有两个变体,一个支持4k tokens,另一个支持128K tokens。开发者可以在ai.nvidia.com上尝试Phi-3 Mini,并在Jetson AI Lab上学习部署。TensorRT-LLM将支持Phi-3 Mini的长上下文窗口,并提供多种优化和内核。NVIDIA是开源生态系统的积极贡献者,并与Microsoft合作加速DirectML、Azure云、生成AI研究、医疗和生命科学等创新。
微软发布了轻量级AI模型Phi-3 Mini的下一个版本,该模型是公司计划发布的三个小型模型之一。Phi-3 Mini拥有38亿个参数,并且相对于GPT-4等大型语言模型,它的数据集较小。该模型现在可在Azure、Hugging Face和Ollama上使用。微软计划发布Phi-3 Small(70亿参数)和Phi-3 Medium(140亿参数)。小型模型通常在运行成本上更便宜,并且在个人设备上的性能更好。与其他竞争对手的小型AI模型相比,Phi-3在编码和推理方面表现更好。然而,Phi-3系列模型的广度不及GPT-4或其他大型语言模型。
phi-3-mini是一个38亿参数的语言模型,使用33万亿标记进行训练。该模型在学术基准和内部测试中表现出色,足够小可以在手机上运行。训练数据集是phi-2数据集的扩大版本,由经过过滤的网络数据和合成数据组成。文章还提到了模型的鲁棒性、安全性和聊天格式,并提供了7B和14B模型的初始参数缩放结果。
完成下面两步后,将自动完成登录并继续当前操作。