大模型相关论文笔记

**大模型相关论文阅读笔记。 ** 　　**倒序排列论文，最新阅读的在最上面。** 　　**2024年1月26日更新**

LLaMA是一系列用更多token训练的大模型，其中LLaMA-13B超过了GPT3，LLaMA-65B与Chinchilla或PaLM-540B相当。文章详细介绍了LLaMA模型的预训练数据来源和分词方法，并对模型的架构和训练速度进行了优化。作者还介绍了训练LLaMA-65B模型所使用的硬件配置和训练时间。

LLaMA 分词方法大模型训练速度预训练数据