内容提要
Google DeepMind开源了Gemma 2,这是他们家族中下一代的小型语言模型。Gemma 2在Gemma架构上进行了多项改进,并使用知识蒸馏使模型达到了最先进的性能。Gemma 2在性能上超过了其他相同规模的模型,并与规模大两倍的模型竞争。Gemma 2通过引入Google旗舰模型Gemini的思想,包括分组查询注意力机制和全局注意力与局部滑动窗口注意力的混合,改进了第一代Gemma架构。Google训练了三种规模的Gemma 2模型:分别使用了20亿、90亿和270亿个参数。在LLM基准测试中,27B参数的Gemma 2模型超过了基准Qwen1.5 32B模型,并且与规模更大的70B参数Llama 3模型相差不大。Gemma 2的发布延续了小型开放语言模型家族的行业趋势,如微软的Phi和Meta的Llama。这些模型通过引入GQA等架构改进和高质量的训练数据,实现了比小型模型预期更好的性能。Google还将27B和9B模型的指令调整版本提交到了Chatbot Arena,在那里模型通过人类评委进行“盲目对比评估”。Gemma 2 27B目前是最高排名的开放模型,超过了Llama 3 70B。9B版本也表现不错,Google表示“在相同参数范围内明显优于其他模型”。用户可以通过Google的AI Studio或Google Cloud Platform的Vertex AI在Web上访问Gemma 2模型。9B和27B的Gemma 2模型可以从Huggingface和Kaggle下载。
关键要点
- Google DeepMind开源了Gemma 2,这是小型语言模型的下一代。
- Gemma 2在Gemma架构上进行了多项改进,并使用知识蒸馏实现了最先进的性能。
- Gemma 2在性能上超过了同规模的其他模型,并与规模大两倍的模型竞争。
- Gemma 2引入了Google旗舰模型Gemini的思想,包括分组查询注意力机制和全局与局部滑动窗口注意力的混合。
- Google训练了三种规模的Gemma 2模型:20亿、90亿和270亿个参数。
- 在LLM基准测试中,27B参数的Gemma 2模型超过了基准Qwen1.5 32B模型,并与70B参数的Llama 3相差不大。
- Gemma 2的发布延续了小型开放语言模型的行业趋势,如微软的Phi和Meta的Llama。
- Google还将27B和9B模型的指令调整版本提交到了Chatbot Arena进行评估。
- Gemma 2 27B目前是最高排名的开放模型,超过了Llama 3 70B。
- 用户可以通过Google的AI Studio或Google Cloud Platform的Vertex AI访问Gemma 2模型。
- 9B和27B的Gemma 2模型可以从Huggingface和Kaggle下载,2B模型将很快发布。
- 模型以“商业友好”的Apache 2.0许可证发布,Google还发布了使用Gemma 2的指南和示例。
延伸问答
Gemma 2模型有哪些改进?
Gemma 2在Gemma架构上进行了多项改进,包括引入分组查询注意力机制和混合的全局与局部滑动窗口注意力。
Gemma 2模型的参数规模有哪些?
Gemma 2模型有三种规模,分别是20亿、90亿和270亿个参数。
Gemma 2在基准测试中的表现如何?
在LLM基准测试中,27B参数的Gemma 2模型超过了Qwen1.5 32B模型,并与70B参数的Llama 3相差不大。
用户如何访问Gemma 2模型?
用户可以通过Google的AI Studio或Google Cloud Platform的Vertex AI访问Gemma 2模型,9B和27B模型也可以从Huggingface和Kaggle下载。
Gemma 2模型的许可证是什么?
Gemma 2模型以“商业友好”的Apache 2.0许可证发布。
Gemma 2模型的多语言能力如何?
Gemma 2被认为是一个有效的多语言工具,27B模型在一些冷门语言中表现接近完美,在大多数常见语言中也表现良好。