大模型相关论文笔记 **大模型相关论文阅读笔记。 ** **倒序排列论文,最新阅读的在最上面。** **2024年1月26日更新** LLaMA是一系列用更多token训练的大模型,其中LLaMA-13B超过了GPT3,LLaMA-65B与Chinchilla或PaLM-540B相当。文章详细介绍了LLaMA模型的预训练数据来源和分词方法,并对模型的架构和训练速度进行了优化。作者还介绍了训练LLaMA-65B模型所使用的硬件配置和训练时间。 LLaMA 分词方法 大模型 训练速度 预训练数据