plus studio ·

nanobot-gpt

💡 原文中文，约6900字，阅读约需17分钟。

📝

内容提要

本文介绍了GPT模型的配置和实现细节，包括序列长度、词汇表大小、层数和注意力机制。重点讨论了RMSNorm归一化方法、旋转嵌入的应用、注意力层的实现，以及模型的初始化和优化策略。最后，介绍了生成文本时的采样方法，如Top-K采样和温度调整。

🎯

❓

最大序列长度是2048。

RMSNorm更简单且计算量较少，没有可学习参数，而LayerNorm有可学习的缩放和偏移参数。

通过apply_rotary_emb函数实现旋转变换，将位置信息融入到输入中。

模型初始化分为虚拟结构阶段和真实初始化阶段。

使用了Top-K采样和温度调整来控制采样的随机性和确定性。

根据不同参数类型使用不同的优化器和学习率，确保训练效果。

🏷️

《GPT 图解》笔记：Seq2Seq及点积注意力
本文介绍了Seq2Seq模型及其点积注意力机制。Seq2Seq用于机器翻译，通过编码器将输入序列转换为上下文表示，解码器生成输出序列。点积注意力计算输入矩...
稻草人周刊 Vol.82
这周我把堆积在书签里没读的文章翻出来读了，发现其中有不少已经是两三个月前发布的内容了，他们跟随着一次次书签管理器迁移漂泊了好久，终于在周刊里找到了归宿。 ...
【Rust日报】2026-05-25 Wild 0.9.0 版本发布
Wild 0.9.0 版本发布 David Lattimore 于 2026年5月24日发布了 Wild 链接器的 0.9.0 版本。这是自1月以来的首次...
谷歌DeepMind的AI自己解出了9道数学难题，每道只花了几百美元
谷歌DeepMind开发的人工智能系统，在无人帮助的情况下，自己证明了9道几十年没人能解的数学难题。每道题的解题成本只有几百美元，展示了AI在数学推理领域...
[对比学习LangChain和MAF-04]针对消息的设计 - Artech
基于对话的Chat Agent是主流对话系统，采用角色消息结构化对话，主要角色包括系统消息、用户消息和AI消息。LangChain和MAF设计了不同的消息...
发现频道：最近10日的热门排行榜[2026年第21期]
最近，小众软件论坛发现频道的热门排行榜上出现了多款实用软件，包括漫画阅读器Moeli、剪贴板同步工具UniClipboard、图片浏览器格图X、桌面启动器...