靖待的技术博客 ·

大模型相关论文笔记

💡 原文中文，约1200字，阅读约需3分钟。

📝

内容提要

LLaMA是一系列用更多token训练的大模型，其中LLaMA-13B超过了GPT3，LLaMA-65B与Chinchilla或PaLM-540B相当。文章详细介绍了LLaMA模型的预训练数据来源和分词方法，并对模型的架构和训练速度进行了优化。作者还介绍了训练LLaMA-65B模型所使用的硬件配置和训练时间。

🎯

关键要点

LLaMA是一系列用更多token训练的大模型，包含6.7B、13.0B、32.5B和65.2B参数。
LLaMA-13B的性能超过了GPT-3，LLaMA-65B与Chinchilla或PaLM-540B相当。
预训练数据来源包括English CommonCrawl、C4、Github、Wikipedia、Gutenberg和Book3、ArXiv和Stack Exchange。
分词方法采用BPE算法，训练集总共包含1.4T个token。
模型架构基于transformer，进行了多项优化，包括预归一化、SwiGLU激活函数和旋转位置嵌入。
训练速度优化措施包括随机多头注意力机制、减少反向传播中的重复计算和模型并行化。
LLaMA-65B模型的训练使用2048张A100 GPU，训练时间为21天，速度为380 tokens/sec/GPU。

🏷️

继续阅读

删除了100条Obsidian笔记：信号密度更强，资料库更聪明了
作者通过清理2100条Obsidian笔记，提出“信号密度”概念，强调减少噪音比增加信息更重要。有效笔记应包含个人思考，纯收集信息会降低AI效率。提供了四...
国星宇航与腾讯云签署“星算”计划战略合作协议，携手领航AI云服务新生态
成都国星宇航与腾讯云签署战略合作协议，聚焦“星算”AI云服务，推动技术共创与生态建设，深化云服务与AI技术融合，助力数字经济发展。
Winxvideo AI 二十周年限免：视频压缩、本地AI提升画质、防抖
Winxvideo AI 正在进行二十周年限免活动，用户只需提供邮箱即可获取注册码。该软件集视频增强、图片修复、格式转换等功能于一体，支持超分辨率提升、帧...
WPS笔记正式发布：AI贯穿记录、整理与复用全过程
金山办公于6月5日发布了AI笔记产品WPS笔记，旨在提升个人知识管理。该产品支持语音、图片和文字等多种信息录入方式，强调信息的主动理解与复用。通过多级AI...
基于 Amazon ECS Fargate 和 Graviton 构建企业级多租户 AI Agent 平台：OpenClaw + Hermes 双 Agent 实践
本文介绍了基于Amazon ECS Fargate和Graviton构建的企业级多租户AI Agent平台，结合OpenClaw和Hermes两个开源Ag...
第28期大数据师资培训班报名主页（Hadoop+Spark+实战案例班，暑假，泉州，2026年8月6日-13日）
第28期大数据师资培训班将于2026年8月在泉州举行，旨在提升中国高校大数据课程的教学水平。培训内容包括课程知识体系、授课方法和实验环境搭建，帮助教师建立...

大模型相关论文笔记

内容提要

关键要点

标签

继续阅读