量子位 ·

起猛了，GPT-4o被谷歌新模型击败，ChatGPT官号：大家深吸一口气

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

谷歌新模型Gemini 1.5 Pro（0801）在lmsys竞技场中击败了GPT-4o，成为第一。Gemini 1.5 Pro（0801）在视觉排行榜和多语言能力基准测试中表现出色，但在编码和Hard Prompt Arena中表现不佳。谷歌发布了20亿参数模型Gemma 2（2B），在竞技场排行榜上超越了GPT-3.5模型。竞技场榜单的权威性受到质疑。

🎯

关键要点

谷歌新模型Gemini 1.5 Pro（0801）在lmsys竞技场中首次夺得第一，超越了GPT-4o。
Gemini 1.5 Pro（0801）在视觉排行榜和多语言能力基准测试中表现出色，但在编码和Hard Prompt Arena中表现不佳。
Gemini 1.5 Pro（0801）是基于谷歌2月发布的Gemini 1.5 Pro的实验性版本，扩展了上下文窗口至200万。
在总体胜率热图中，Gemini 1.5 Pro（0801）比GPT-4o胜出54%，在多语言能力测试中排名第一。
谷歌发布了20亿参数模型Gemma 2（2B），在竞技场排行榜上超越了所有GPT-3.5模型。
竞技场榜单的权威性受到质疑，专家呼吁停止使用该排行榜作为模型性能的唯一指标。

❓

延伸问答

Gemini 1.5 Pro（0801）在lmsys竞技场中表现如何？

Gemini 1.5 Pro（0801）在lmsys竞技场中首次夺得第一，超越了GPT-4o，并在视觉排行榜和多语言能力基准测试中表现出色。

Gemini 1.5 Pro（0801）有哪些优势和劣势？

Gemini 1.5 Pro（0801）在视觉能力和多语言能力上表现优异，但在编码和Hard Prompt Arena中表现不佳。

谷歌发布的Gemma 2（2B）模型有什么特点？

Gemma 2（2B）是一个20亿参数的模型，可以在Google Colab的免费T4 GPU上运行，并在竞技场排行榜上超越了所有GPT-3.5模型。

为什么竞技场榜单的权威性受到质疑？

专家指出，虽然Gemma 2（2B）在竞技场得分高于GPT-3.5 Turbo，但在MMLU上远低于后者，使用竞技场排名作为唯一指标可能会导致误导。

Gemini 1.5 Pro（0801）在多语言能力测试中表现如何？

Gemini 1.5 Pro（0801）在多语言能力测试中排名第一，尤其在中文、日语、德语和俄语方面表现突出。

ChatGPT官方账号对谷歌新模型的反应是什么？

ChatGPT官方账号暗示可能会发布新版本来应对谷歌新模型的挑战，显示出对竞争的关注。

🏷️