Mistral 7B
原文中文,约500字,阅读约需2分钟。发表于: 。Mistral 7B v0.1 是一个拥有 70 亿参数的语言模型,通过使用分组查询注意力(GQA)和滑动窗口注意力(SWA)提高了推理效率,并且还提供了一个经过调整的模型 Mistral 7B -- Instruct,在人类和自动化评测中都超过了 Llama 2 13B -- Chat 模型。
该文介绍了支持高达32,768个令牌的长上下文LLMs,通过持续预训练构建模型系列,并在多项任务上进行了评估。70B变体已经超过了gpt-3.5-turbo-16k在一套长上下文任务中的整体性能。同时,该文还对Llama的位置编码进行了深入研究,并讨论了预训练过程中各种设计选择的影响。