Gemini新版蝉联竞技场榜一,但刚发布就被越狱了
💡
原文中文,约2200字,阅读约需6分钟。
📝
内容提要
谷歌发布的Gemini 2.5 Pro在“人类最后的考试”中以21.6%的成绩超越o3,成为大模型竞技场第一名。尽管表现优异,但发布后两小时内即被越狱,安全性引发关注。
🎯
关键要点
- 谷歌发布的Gemini 2.5 Pro在“人类最后的考试”中以21.6%的成绩超越o3,成为大模型竞技场第一名。
- Gemini 2.5 Pro在代码、推理等任务上的表现有所提升,Elo评分比上个月的版本提升了24分。
- 0605版本预计将成为Gemini 2.5 Pro的正式稳定版,基于I/O大会上展示的0506版本构建。
- 0605在“人类最后的考试”中成绩领先o3 1.3个百分点,超过Claude 4 Opus的两倍。
- 0605在GPQA、长文本处理等多个任务中表现优异,尤其在事实性测试中领先第二名超过10个百分点。
- Gemini的输入Token价格比OpenAI o3便宜,输出Token也相对较低。
- 0605的视觉能力和WebDev表现也位列第一,基于用户反馈进行了输出风格和结构的改进。
- 发布后两小时内,0605即被越狱,安全性问题引发关注,模型在提示词攻击下泄露敏感信息。
❓
延伸问答
Gemini 2.5 Pro在“人类最后的考试”中的表现如何?
Gemini 2.5 Pro在“人类最后的考试”中以21.6%的成绩超越o3,成为第一名。
0605版本的Gemini有哪些主要改进?
0605版本在代码、推理、长文本处理等任务上表现提升,尤其在事实性测试中领先第二名超过10个百分点。
Gemini的输入和输出Token价格如何?
Gemini的输入Token价格是o3的1/8,输出Token是o3的1/4,整体比OpenAI的模型便宜。
0605版本发布后发生了什么安全事件?
0605版本在发布后两小时内被越狱,模型在提示词攻击下泄露了敏感信息。
Gemini 2.5 Pro与竞争对手相比表现如何?
Gemini 2.5 Pro在多个任务中超越了主要竞争对手,如在GPQA和长文本处理上表现优异。
0605版本的视觉能力表现如何?
0605版本的视觉能力在各项测试中位列第一,表现优异。
➡️