Yi's blog ·

逐步构建变压器

💡 原文英文，约1100词，阅读约需4分钟。

📝

内容提要

经过几个月的学习，我从零开始构建了一个字符级名称生成器。通过逐步添加架构组件，我发现数据处理对模型性能影响最大，深度比宽度更重要。最终模型在20,000步训练后，测试损失降至1.86，显示出显著改进。

🎯

关键要点

经过几个月的学习，构建了一个字符级名称生成器。
在构建之前，通过阅读Sebastian Raschka的书籍和Andrej Karpathy的YouTube系列建立了理论基础。
逐步添加架构组件，每一步都测量其影响。
最终模型在20,000步训练后，测试损失降至1.86，显示出显著改进。
深度比宽度更重要，堆叠4层是最大的改进。
数据处理对模型性能影响最大，使用每个名称的填充显著降低了测试损失。
添加前馈网络（MLP）增加了参数数量，但改善有限，且可能导致轻微过拟合。
LayerNorm和RoPE在小规模模型中帮助稳定训练，但在更大模型中更为重要。
GELU与ReLU在小规模下的效果微乎其微。
扩展模型规模显著改善性能，20,000步训练后测试损失降至1.85。
添加dropout在初期降低了测试损失，但在长时间训练中有助于防止过拟合。
学习率调度、权重衰减和梯度裁剪共同改善了训练过程。
最终模型是一个完整的变换器解码器，使用了多种现代技术以提高性能。
项目进展显示，最终模型的正确字符预测概率提高了约1.6倍。

🏷️

继续阅读

Mastra使网页开发者能够使用TypeScript构建AI代理
Python曾在机器学习领域占主导地位，但随着AI的普及，TypeScript逐渐崭露头角。Mastra是一个开源AI框架，允许开发者无需Python即可...
《生化危机9》还没上线，里昂突然可能要塌房了
卡普空发布了《生化危机9》的新演示，展示了里昂在目睹护士被丧尸杀死时的冷漠行为，引发玩家不满，认为这一设定与里昂的性格不符。尽管可能隐藏剧情信息，但这一表...
Kubernetes遥测功能完全危害集群
Kubernetes存在一个漏洞，允许具有读取权限的用户通过特定服务账户访问Kubelet，执行任意命令。安全研究员Graham Helton建议审查RB...
《太吾绘卷》完全版到来之前：一款发售八年的国产独立游戏，拒绝结束
《太吾绘卷》历时八年开发，将于今年4月发布完整版。开发商螺舟工作室重视玩家反馈，持续更新，致力于提升游戏体验，尽管面临市场压力，仍坚持创作理念，回应玩家期待。
浏览器中的代理屏幕录制
新型AI代理系统能够浏览网页、编写代码并执行多步骤任务。通过agent-video，这些系统生成同步屏幕录制视频，展示AI操作过程，提供结构化叙述和可视化...
Spotify表示2025年支付了110亿美元的版权费
Spotify预计在2025年向音乐行业支付超过110亿美元，较去年增加10亿美元，占录音行业收入的30%。这些款项主要支付给权利持有者，艺术家实际获得的...

逐步构建变压器

内容提要

关键要点

标签

继续阅读