阿里云开源通义千问Qweb2 支持128K上下文 在测试中表现不俗

💡 原文中文,约1300字,阅读约需4分钟。
📝

内容提要

阿里云推出通义千问Qwen2系列模型,提供5个版本,表现不俗。模型能力较前版本提升,支持128K tokens,增加27种语言训练。Qwen2超过Llama3和Mixtral-8x22B,给Meta带来压力。模型经过微调,提升智能水平,对人类有帮助、诚实和安全。使用多种自动方法获取高质量指令和偏好数据,训练方面采用多种方法。

🎯

关键要点

  • 阿里云推出通义千问Qwen2系列模型,完全开源,提供5个版本。

  • Qwen2模型支持128K tokens,能力较前版本有显著提升。

  • 新版本在编程和数学方面的能力显著提高,增加27种语言的训练数据。

  • 所有Qwen2模型均使用GQA,提升推理能力并降低显存占用。

  • Qwen2-72B在评测中超过Llama3-70B和Mixtral-8x22B,给Meta带来压力。

  • 阿里云AI团队通过精细微调提升模型智能水平,使其更接近人类表现。

  • 微调过程中采用多种自动方法获取高质量指令和偏好数据,结合多种训练方法。

➡️

继续阅读