起猛了,GPT-4o被谷歌新模型击败,ChatGPT官号:大家深吸一口气
💡
原文中文,约1600字,阅读约需4分钟。
📝
内容提要
谷歌新模型Gemini 1.5 Pro(0801)在lmsys竞技场中击败了GPT-4o,成为第一。Gemini 1.5 Pro(0801)在视觉排行榜和多语言能力基准测试中表现出色,但在编码和Hard Prompt Arena中表现不佳。谷歌发布了20亿参数模型Gemma 2(2B),在竞技场排行榜上超越了GPT-3.5模型。竞技场榜单的权威性受到质疑。
🎯
关键要点
- 谷歌新模型Gemini 1.5 Pro(0801)在lmsys竞技场中首次夺得第一,超越了GPT-4o。
- Gemini 1.5 Pro(0801)在视觉排行榜和多语言能力基准测试中表现出色,但在编码和Hard Prompt Arena中表现不佳。
- Gemini 1.5 Pro(0801)是基于谷歌2月发布的Gemini 1.5 Pro的实验性版本,扩展了上下文窗口至200万。
- 在总体胜率热图中,Gemini 1.5 Pro(0801)比GPT-4o胜出54%,在多语言能力测试中排名第一。
- 谷歌发布了20亿参数模型Gemma 2(2B),在竞技场排行榜上超越了所有GPT-3.5模型。
- 竞技场榜单的权威性受到质疑,专家呼吁停止使用该排行榜作为模型性能的唯一指标。
❓
延伸问答
Gemini 1.5 Pro(0801)在lmsys竞技场中表现如何?
Gemini 1.5 Pro(0801)在lmsys竞技场中首次夺得第一,超越了GPT-4o,并在视觉排行榜和多语言能力基准测试中表现出色。
Gemini 1.5 Pro(0801)有哪些优势和劣势?
Gemini 1.5 Pro(0801)在视觉能力和多语言能力上表现优异,但在编码和Hard Prompt Arena中表现不佳。
谷歌发布的Gemma 2(2B)模型有什么特点?
Gemma 2(2B)是一个20亿参数的模型,可以在Google Colab的免费T4 GPU上运行,并在竞技场排行榜上超越了所有GPT-3.5模型。
为什么竞技场榜单的权威性受到质疑?
专家指出,虽然Gemma 2(2B)在竞技场得分高于GPT-3.5 Turbo,但在MMLU上远低于后者,使用竞技场排名作为唯一指标可能会导致误导。
Gemini 1.5 Pro(0801)在多语言能力测试中表现如何?
Gemini 1.5 Pro(0801)在多语言能力测试中排名第一,尤其在中文、日语、德语和俄语方面表现突出。
ChatGPT官方账号对谷歌新模型的反应是什么?
ChatGPT官方账号暗示可能会发布新版本来应对谷歌新模型的挑战,显示出对竞争的关注。
➡️