阿里云开源通义千问Qweb2 支持128K上下文 在测试中表现不俗
💡
原文中文,约1300字,阅读约需4分钟。
📝
内容提要
阿里云推出通义千问Qwen2系列模型,提供5个版本,表现不俗。模型能力较前版本提升,支持128K tokens,增加27种语言训练。Qwen2超过Llama3和Mixtral-8x22B,给Meta带来压力。模型经过微调,提升智能水平,对人类有帮助、诚实和安全。使用多种自动方法获取高质量指令和偏好数据,训练方面采用多种方法。
🎯
关键要点
-
阿里云推出通义千问Qwen2系列模型,完全开源,提供5个版本。
-
Qwen2模型支持128K tokens,能力较前版本有显著提升。
-
新版本在编程和数学方面的能力显著提高,增加27种语言的训练数据。
-
所有Qwen2模型均使用GQA,提升推理能力并降低显存占用。
-
Qwen2-72B在评测中超过Llama3-70B和Mixtral-8x22B,给Meta带来压力。
-
阿里云AI团队通过精细微调提升模型智能水平,使其更接近人类表现。
-
微调过程中采用多种自动方法获取高质量指令和偏好数据,结合多种训练方法。
➡️