大模型相关论文笔记

**大模型相关论文阅读笔记。 **   **倒序排列论文,最新阅读的在最上面。**   **2024年1月26日更新**

LLaMA是一系列用更多token训练的大模型,其中LLaMA-13B超过了GPT3,LLaMA-65B与Chinchilla或PaLM-540B相当。文章详细介绍了LLaMA模型的预训练数据来源和分词方法,并对模型的架构和训练速度进行了优化。作者还介绍了训练LLaMA-65B模型所使用的硬件配置和训练时间。

大模型相关论文笔记
原文中文,约1200字,阅读约需3分钟。发表于:
阅读原文