HyperAI超神经 ·

教程汇总丨开源小模型综合智能水平追平GPT-5，一站测评Qwen 3.5/Gemma 4等热门模型

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

第三方评测机构Artificial Analysis发布报告称，Qwen3.5 27B和Gemma 4 31B在智能水平上接近GPT-5。Qwen3.5在推理能力上表现优异，但知识准确性仍有不足。两款模型支持多模态输入，适合本地部署，降低使用门槛。Gemma 4系列在多种应用场景中表现出色，具备强大的推理和语言处理能力。

🎯

关键要点

第三方评测机构Artificial Analysis发布报告，Qwen3.5 27B和Gemma 4 31B在智能水平上接近GPT-5。
Qwen3.5 27B在推理能力上表现优异，获得42分，超过GPT-5（medium）的46分。
Gemma 4 31B在复杂任务上表现出色，获得39分，匹配GPT-5（low）。
两款模型均支持多模态输入，适合本地部署，降低使用门槛。
小模型在知识准确性和幻觉控制方面仍有不足，AA-Omniscience指标显示出明显落后。
这类模型可在单张NVIDIA H100上运行，并可通过量化在个人设备上本地部署。
开源权重阵营整体在快速逼近前沿，大模型如GLM-5.1已将差距缩小至个位数分值。

🔎

延伸解读

小模型的优势与局限

Qwen3.5和Gemma 4在推理能力上表现突出，尤其在复杂任务中超越了GPT-5的低档次。然而，它们在知识准确性和幻觉控制方面仍显不足，AA-Omniscience指标显示出明显的差距。这提醒用户在选择模型时需关注其在特定应用场景下的表现与局限性。

多模态输入的应用前景

两款模型均支持多模态输入，适合本地部署，降低了使用门槛。这意味着用户可以在多种场景中灵活应用这些模型，如视觉理解和文本生成，拓宽了其应用范围，尤其是在需要同时处理图像和文本的任务中。

开源模型的快速发展

开源模型的性能正在迅速逼近大型闭源模型，GLM-5.1等新模型的出现使得这一趋势更加明显。这为开发者提供了更多选择，尤其是在资源有限的情况下，开源模型的本地部署能力使得高性能AI的使用变得更加普及。

❓

延伸问答

Qwen3.5和Gemma 4的智能水平如何与GPT-5比较？

Qwen3.5 27B和Gemma 4 31B在智能水平上接近GPT-5，分别在推理能力和复杂任务上表现出色。

Qwen3.5在推理能力上得了多少分？

Qwen3.5在推理能力上获得42分，超过了GPT-5（medium）的46分。

Gemma 4在复杂任务上的表现如何？

Gemma 4在复杂任务上表现出色，获得39分，匹配GPT-5（low）。

这两款模型支持哪些输入方式？

Qwen3.5和Gemma 4均支持多模态输入。

小模型在知识准确性方面的表现如何？

小模型在知识准确性和幻觉控制方面仍有不足，AA-Omniscience指标显示明显落后。

如何在个人设备上部署这些模型？

这类模型可在单张NVIDIA H100上运行，并可通过量化在个人设备上本地部署。

🏷️