Yi's blog ·

逐步构建变压器

💡 原文英文，约1100词，阅读约需4分钟。

📝

内容提要

经过几个月的学习，我从零开始构建了一个字符级名称生成器。通过逐步添加架构组件，我发现数据处理对模型性能影响最大，深度比宽度更重要。最终模型在20,000步训练后，测试损失降至1.86，显示出显著改进。

🎯

❓

通过逐步添加架构组件并测量其影响，最终构建了一个字符级名称生成器。

Sebastian Raschka的书籍和Andrej Karpathy的YouTube系列提供了重要的理论基础。

数据处理是影响模型性能的最大因素，使用每个名称的填充显著降低了测试损失。

深度比宽度更重要，堆叠4层是最大的改进。

添加MLP增加了参数数量，但改善有限，且可能导致轻微过拟合。

学习率调度、权重衰减和梯度裁剪共同改善了训练过程，防止了不稳定性。

🏷️

世界最差程序员变得主动：构建一个破解排行榜的AI
一位自称“世界最差程序员”的新手，通过AI工具学习编程，成功创建了一个连接公司知识库的代理，帮助他在内部排行榜上获得第一名。尽管编程仍然困难，但这个项目让...
再见面板：Debian构建WordPress
任务要求：使用Debian纯命令行构建自己的WordPress网站，并通过一些方法支持http://linli […] 再见面板：Debian构建Word...
欢迎参加2026年6月9日的PHPverse活动
JetBrains PHPverse – a community-inspired professional event for PHP develope...
安博瑞克的新款旋转屏手持游戏机起售价低于100美元
Following its sliding screen handheld that debuted last June with a design th...
这些智能眼镜都没什么用
智能眼镜虽然时尚、舒适且功能强大，但尚未实现预期的生活改变。它们提供便利，如导航和信息显示，但大多数AI功能仍不够实用，隐私问题也令人担忧。用户对这些设备...
Christophe Pettus: After pgBackRest
pgBackRest is now unmaintained. If you were running pgBackRest in production ...