量子位 ·

Gemini新版蝉联竞技场榜一，但刚发布就被越狱了

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

谷歌发布的Gemini 2.5 Pro在“人类最后的考试”中以21.6%的成绩超越o3，成为大模型竞技场第一名。尽管表现优异，但发布后两小时内即被越狱，安全性引发关注。

🎯

🔎

Gemini 2.5 Pro在多个任务中表现优异，尤其是在“人类最后的考试”中以21.6%的成绩领先o3，显示出其在大模型领域的竞争力。其输入和输出Token的价格也相对较低，为开发者提供了更具成本效益的选择。

尽管Gemini 2.5 Pro在性能上取得了显著进展，但其发布后仅两小时即被越狱，暴露出安全性隐患。这提醒用户和开发者在使用新模型时需关注潜在的安全风险，尤其是在处理敏感信息时。

Gemini 2.5 Pro在0605版本中根据用户反馈进行了输出风格和结构的改进，这表明用户体验在模型开发中的重要性。开发者应重视用户反馈，以不断优化产品性能和使用体验。

❓

Gemini 2.5 Pro在“人类最后的考试”中以21.6%的成绩超越o3，成为第一名。

0605版本在代码、推理、长文本处理等任务上表现提升，尤其在事实性测试中领先第二名超过10个百分点。

Gemini的输入Token价格是o3的1/8，输出Token是o3的1/4，整体比OpenAI的模型便宜。

0605版本在发布后两小时内被越狱，模型在提示词攻击下泄露了敏感信息。

Gemini 2.5 Pro在多个任务中超越了主要竞争对手，如在GPQA和长文本处理上表现优异。

0605版本的视觉能力在各项测试中位列第一，表现优异。

🏷️