起猛了,GPT-4o被谷歌新模型击败,ChatGPT官号:大家深吸一口气

💡 原文中文,约1600字,阅读约需4分钟。
📝

内容提要

谷歌新模型Gemini 1.5 Pro(0801)在lmsys竞技场中击败了GPT-4o,成为第一。Gemini 1.5 Pro(0801)在视觉排行榜和多语言能力基准测试中表现出色,但在编码和Hard Prompt Arena中表现不佳。谷歌发布了20亿参数模型Gemma 2(2B),在竞技场排行榜上超越了GPT-3.5模型。竞技场榜单的权威性受到质疑。

🎯

关键要点

  • 谷歌新模型Gemini 1.5 Pro(0801)在lmsys竞技场中首次夺得第一,超越了GPT-4o。
  • Gemini 1.5 Pro(0801)在视觉排行榜和多语言能力基准测试中表现出色,但在编码和Hard Prompt Arena中表现不佳。
  • Gemini 1.5 Pro(0801)是基于谷歌2月发布的Gemini 1.5 Pro的实验性版本,扩展了上下文窗口至200万。
  • 在总体胜率热图中,Gemini 1.5 Pro(0801)比GPT-4o胜出54%,在多语言能力测试中排名第一。
  • 谷歌发布了20亿参数模型Gemma 2(2B),在竞技场排行榜上超越了所有GPT-3.5模型。
  • 竞技场榜单的权威性受到质疑,专家呼吁停止使用该排行榜作为模型性能的唯一指标。

延伸问答

Gemini 1.5 Pro(0801)在lmsys竞技场中表现如何?

Gemini 1.5 Pro(0801)在lmsys竞技场中首次夺得第一,超越了GPT-4o,并在视觉排行榜和多语言能力基准测试中表现出色。

Gemini 1.5 Pro(0801)有哪些优势和劣势?

Gemini 1.5 Pro(0801)在视觉能力和多语言能力上表现优异,但在编码和Hard Prompt Arena中表现不佳。

谷歌发布的Gemma 2(2B)模型有什么特点?

Gemma 2(2B)是一个20亿参数的模型,可以在Google Colab的免费T4 GPU上运行,并在竞技场排行榜上超越了所有GPT-3.5模型。

为什么竞技场榜单的权威性受到质疑?

专家指出,虽然Gemma 2(2B)在竞技场得分高于GPT-3.5 Turbo,但在MMLU上远低于后者,使用竞技场排名作为唯一指标可能会导致误导。

Gemini 1.5 Pro(0801)在多语言能力测试中表现如何?

Gemini 1.5 Pro(0801)在多语言能力测试中排名第一,尤其在中文、日语、德语和俄语方面表现突出。

ChatGPT官方账号对谷歌新模型的反应是什么?

ChatGPT官方账号暗示可能会发布新版本来应对谷歌新模型的挑战,显示出对竞争的关注。

➡️

继续阅读