微软Phi-4家族新增两位成员，5.6B多模态单任务超GPT-4o，3.8B小模型媲美千问7B

机器之心 ·

微软Phi-4家族新增两位成员，5.6B多模态单任务超GPT-4o，3.8B小模型媲美千问7B

💡 原文中文，约5000字，阅读约需12分钟。

📝

内容提要

微软发布了Phi-4小型语言模型，参数为140亿，性能超越GPT-4o。新模型Phi-4-multimodal和Phi-4-mini分别优化了多模态处理和效率，支持多种设备。Phi-4-multimodal整合文本、视觉和语音，表现优异；Phi-4-mini在推理和编程任务上表现突出，适合资源有限环境。

🎯

关键要点

微软发布了Phi-4小型语言模型，参数为140亿，性能超越GPT-4o。
Phi-4模型家族新增Phi-4-multimodal和Phi-4-mini，分别优化多模态处理和效率。
Phi-4-multimodal整合文本、视觉和语音，表现优异。
Phi-4-mini在推理和编程任务上表现突出，适合资源有限环境。
Phi-4-multimodal采用新颖的模态扩展方法，支持多种推理模式。
Phi-4-mini的词汇量扩大至20万个，支持多语言应用。
Phi-4-multimodal在语音识别和翻译任务中表现卓越。
Phi-4-mini在复杂推理的数学和编码任务上与更大模型相当。
两个模型都使用200064个词汇的tokenizer，支持多语言和多模态输入。
Phi-4-multimodal采用Mixture of LoRA技术，具有高度可扩展性。
Phi-4-mini通过标准化协议与编程接口无缝集成，增强智能体能力。
Phi-4-mini的训练数据经过严格过滤，加入了针对性的数学和编程数据。
Phi-4-multimodal的预训练阶段涉及丰富多样的数据集，包括视觉和语音数据。

❓

延伸问答

Phi-4模型家族的新成员有哪些特点？

Phi-4家族新增的Phi-4-multimodal和Phi-4-mini分别优化了多模态处理和效率，支持多种设备。

Phi-4-multimodal模型的主要功能是什么？

Phi-4-multimodal整合文本、视觉和语音输入，优化了语音识别、翻译和图像分析等任务。

Phi-4-mini模型适合哪些应用场景？

Phi-4-mini适合资源有限的环境，特别是在推理和编程任务上表现突出。

Phi-4模型的训练数据有什么特点？

Phi-4模型使用高质量的训练数据，特别强调数学和编程数据的质量，经过严格过滤。

Phi-4-multimodal在语音识别方面的表现如何？

Phi-4-multimodal在语音识别任务中表现卓越，单词错误率为6.14%，在排行榜上名列前茅。

Phi-4-mini如何增强其推理能力？

Phi-4-mini通过精心设计的合成数据和训练策略，增强了其推理能力，表现与更大模型相当。

🏷️

继续阅读

JetBrains推出的Kotlin专业证书 – 现已在LinkedIn Learning上线
JetBrains与LinkedIn Learning合作推出Kotlin专业证书，适合有基础编程知识的开发者。课程内容包括Kotlin基础、面向对象编程...
微软为何押注于临时身份以防止自主代理失控
在KubeCon Europe 2026上，微软Azure Kubernetes服务项目经理Jorge Palma讨论了边缘AI的运行机制和安全性，强调临...
等等，这些图是GPT-Image-2出的？！
GPT Image 2 的推出改变了 AI 图片生成领域，能够精准渲染复杂的中文排版和图文内容，生成的试卷和书法作品几乎完美。该模型具备强大的文本渲染能力...
Eclipse基金会推出企业级开源替代方案，取代微软的VS Code市场
Eclipse基金会推出了Open VSX托管注册中心，这是首个由基金会运营的开源开发者基础设施服务。该平台为开发者提供开放、可靠的扩展注册库，支持AI驱...
微软Teams正在尝试修复误操作的举手功能
微软正在重新设计Teams会议软件，将“举手”按钮移至主工具栏之外，以减少误操作。新设计允许用户自定义工具栏，分组“举手”功能和表情反应，避免干扰会议。同...
微软与SpeedTest加深合作在Windows 11里集成网速测试但配图是macOS
知名测速平台SpeedTest的母公司Ookla宣布与微软加深合作，将网速测试集成到Windows 11中。用户通过任务栏网络图标可使用Edge浏览器打开...