科学空间|Scientific Spaces ·

让炼丹更科学一些（二）：将结论推广到无界域

💡 原文中文，约9700字，阅读约需24分钟。

📝

内容提要

本文重启“科学炼丹”专题，探讨SGD在无界域的收敛性。通过引入期望形式简化推导，得出更宽松的收敛结论，强调学习率策略的重要性，具有理论与实践的参考价值。

🎯

关键要点

本文重启“科学炼丹”专题，探讨SGD在无界域的收敛性。
引入期望形式简化推导，得出更宽松的收敛结论。
强调学习率策略的重要性，具有理论与实践的参考价值。
SGD的收敛性依赖于一些适当的假设，包括有界凸集和学习率的单调递减性。
为了保证有界性，SGD被修改为投影SGD。
通过期望形式消去对数据变量的依赖，简化后续推导。
最终得出关于学习率的两个经典条件，以确保收敛性。
推广到无界域的代价是收敛速率略微放大，但对实践影响不大。
式$ ef{leq:avg-3}$提供了更宽松的收敛结论，允许更灵活的学习率调度。

❓

延伸问答

SGD在无界域的收敛性有什么新发现？

本文通过引入期望形式，得出了更宽松的收敛结论，强调学习率策略的重要性。

学习率策略在SGD收敛性中起什么作用？

学习率策略对SGD的收敛性至关重要，适当的学习率调度可以确保收敛性。

如何保证SGD的有界性？

为了保证有界性，SGD被修改为投影SGD，通过投影操作确保优化轨迹在有界凸集内。

推广到无界域的代价是什么？

推广到无界域的代价是收敛速率略微放大，但对实践影响不大。

期望形式在推导中有什么作用？

期望形式的引入消除了对数据变量的依赖，简化了后续推导过程。

本文对SGD的收敛性结论有什么理论与实践价值？

本文的收敛性结论为实际应用提供了理论支持，尤其是在LLM时代，具有参考价值。

🏷️

继续阅读

Gavriel Cohen在OpenClaw中发现了自己的代码，因此他选择离开
Gavriel Cohen创立NanoClaw，旨在解决OpenClaw的安全性和可维护性问题。NanoClaw通过容器化和代理解决方案提升安全性，适合技...
乐队Feeble Little Horse在新专辑《bitknot》中拥抱数字奇异性
乐队Feeble Little Horse在新专辑《bitknot》中融合现代电子元素与独立摇滚，展现了全新的音乐风格。歌曲如“Doorway”和“Rew...
大规模AI检索正成为系统问题，而非工具问题
文章讨论了AI检索架构的演变，强调从单一向量搜索向综合检索和排名架构的发展。随着AI应用需求增加，系统性能、排名质量和架构简化变得愈发重要。报告指出系统碎...
美国联合航空航班因蓝牙音箱名称被迫折返
美国联合航空的UA236航班因乘客的蓝牙音箱名称被怀疑为“炸弹”，在起飞一小时后返回纽瓦克。机组人员多次要求乘客关闭蓝牙，最终进行了全面检查。此事件提醒大...
2026 年 5 月新作盘点
2026年5月新作《混音青春》由Beethoven & Dinosaur开发，讲述少女Stacy与好友的青春回忆，结合音乐与叙事，使用虚幻引擎5，...
意难平，杀敌1K自损800的猎虫之战正式收尾：阿小信的自由职业周记（2026W22）
文章讲述了作者作为独立开发者在应对网络爬虫带来的流量问题时的挑战与心态变化。作者通过优化分析工具和算法，努力解决垃圾流量问题，并反思生活中的不顺与成长。最...