谷歌的Gemini 3.1 Pro表现大致优秀

谷歌的Gemini 3.1 Pro表现大致优秀

💡 原文英文,约600词,阅读约需2分钟。
📝

内容提要

谷歌于周四推出Gemini 3.1 Pro模型,尽管仍处于预览阶段,但在解决复杂问题上表现优于前版本,推理基准测试得分77.1%。Gemini 3 Deep Think专为推理设计,表现更佳,但仅限特定用户。该模型在GDPval-AA基准测试中得分1317,编码基准表现良好,价格保持不变,开发者可通过多平台访问。

🎯

关键要点

  • 谷歌推出Gemini 3.1 Pro模型,仍处于预览阶段,解决复杂问题的能力优于前版本。
  • Gemini 3 Deep Think专为推理设计,表现更佳,但仅限特定用户使用。
  • Gemini 3.1 Pro在ARC-AGI-2基准测试中得分77.1%,显著高于前代模型的31.1%。
  • 在GDPval-AA基准测试中,Gemini 3.1 Pro得分1317,低于Anthropic的Sonnet 4.6的1633分。
  • 在编码基准测试中,Gemini 3.1 Pro表现优于大多数竞争对手。
  • 新模型的定价保持不变,每百万输入/输出令牌为2美元/12美元,性价比高于Anthropic的Opus 4.6。
  • Gemini 3.1 Pro通过多种平台可供开发者使用,包括Google AI Studio和Android Studio。

延伸问答

Gemini 3.1 Pro的主要优势是什么?

Gemini 3.1 Pro在解决复杂问题方面表现优于前版本,推理基准测试得分达到77.1%。

Gemini 3 Deep Think与Gemini 3.1 Pro有什么区别?

Gemini 3 Deep Think专为推理设计,表现更佳,但仅限特定用户使用,而Gemini 3.1 Pro则更广泛可用。

Gemini 3.1 Pro在编码基准测试中的表现如何?

Gemini 3.1 Pro在大多数编码基准测试中表现优于竞争对手,尤其是在Terminal-Bench 2.0中表现突出。

Gemini 3.1 Pro的定价是多少?

Gemini 3.1 Pro的定价为每百万输入/输出令牌2美元/12美元,性价比高于Anthropic的Opus 4.6。

Gemini 3.1 Pro的可用性如何?

Gemini 3.1 Pro目前处于预览阶段,但已通过多种平台广泛提供,包括Google AI Studio和Android Studio。

Gemini 3.1 Pro在GDPval-AA基准测试中的表现如何?

在GDPval-AA基准测试中,Gemini 3.1 Pro得分1317,低于Anthropic的Sonnet 4.6的1633分。

➡️

继续阅读