Nathan Chen ·

在核范数下推导和实现优化器

💡 原文英文，约2400词，阅读约需9分钟。

📝

内容提要

一名开发者接受了优化器的任务，旨在核范数下最小化近似误差并训练NanoGPT模型。尽管对任务理解不足，他记录了学习过程和实验结果，最终发现优化方向错误，导致模型表现不佳。

🎯

关键要点

开发者接受了一个任务，旨在核范数下最小化近似误差并训练NanoGPT模型。
尽管对任务理解不足，开发者记录了学习过程和实验结果。
开发者在训练60个周期后意识到自己误解了任务。
开发者对优化器的理解不足，尤其是关于规范和梯度下降的知识。
开发者使用Gemini 2.5 Pro学习了谱范数和核范数的基本概念。
Muon优化器是任务的灵感来源，类似于谱范数下的最陡下降。
开发者进行了核范数约束下的最陡下降理论推导。
开发者提出了Tauon，一个低秩优化器，旨在提高计算效率。
Tauon通过参数化权重矩阵为低秩因子来实现计算效率。
开发者在训练NanoGPT模型时使用了Tauon优化器，但结果不佳。
开发者发现优化方向错误，导致模型表现不佳。
开发者总结了实验过程，并希望从中学习。

❓

延伸问答

开发者在优化器任务中遇到了什么困难？

开发者对任务的理解不足，尤其是在规范和梯度下降方面的知识，导致模型表现不佳。

Tauon优化器的主要目标是什么？

Tauon优化器旨在通过参数化权重矩阵为低秩因子来提高计算效率。

开发者是如何学习谱范数和核范数的？

开发者使用Gemini 2.5 Pro学习了谱范数和核范数的基本概念。

开发者在训练NanoGPT模型时使用了哪些优化器？

开发者使用了Tauon优化器、Muon优化器和标准NanoGPT作为对比。

开发者在实验中得到了什么样的结果？

Tauon优化器的表现不佳，训练损失高于3，而标准NanoGPT模型的训练损失低于0.15。

开发者在优化过程中发现了什么错误？

开发者发现自己在优化核范数时方向错误，应该是最大化而不是最小化。

🏷️

继续阅读

无屏的Camp Snap 2更纤薄，配备更多滤镜
Camp Snap 2是一款更新版的无屏数码相机，设计纤薄，性能更快，售价69.95美元。相机配备800万像素传感器，支持JPEG格式，适合儿童使用。新增...
成为AI原生工程师的实用指南
本文探讨了成为AI原生工程师的四个核心实践：上下文工程、规范驱动开发、关键验证和问题分解。工程师需转变角色，协调AI工具以提升生产力。AI生成代码的质量依...
大语言模型可解释性入门
文章讨论了大语言模型（LLM）的可解释性，强调动态评估的重要性。尽管LLM在AI领域取得了突破，其内部运作仍不透明。研究者提出了基于SMILE的框架，通过...
工程日历是无人跟踪的数据库账单
数据库维护工作增加，工程师时间被占用，影响产品开发。数据量增长和架构问题导致重复工作，降低团队效率。优化数据库架构是解决问题的关键，需要关注日常工作和会议...
FlowDB: 性能超过RocksDB的时序数据库
FlowDB 是一款高性能的嵌入式时序存储引擎，基于 Rust 构建，专为时序数据和日志负载优化。它采用无锁序列号分配、锁外 WAL 预编码和双态 Mem...
乐高的智能玩具宝可梦可以训练和战斗，但却无法实现我希望它们能做到的那件事
乐高推出第二代智能玩具“智能砖”，包含12个新的宝可梦套装，增强了互动性和战斗功能。尽管有新特性，但缺乏官方音效，无法发出宝可梦的名字。套装将于8月1日发...