小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
肖恩·托马斯:期待Postgres 19:查询提示

Postgres 19引入了pg_plan_advice和pg_stash_advice模块,提供查询建议功能,帮助优化器选择更好的执行计划。此功能允许DBA在特定情况下调整查询计划,提升Postgres的灵活性和性能。

肖恩·托马斯:期待Postgres 19:查询提示

Planet PostgreSQL
Planet PostgreSQL · 2026-06-05T12:02:28Z
DeepSeek-V4——迈向百万token上下文:保留V3的MoE和多token预测机制,提出混合注意力机制(CSA/HCA)、流形约束超连接mHC(替代残差)、Muon优化器(取代AdamW)

DeepSeek-V4系列模型推出了1.6T和284B参数的两个版本,采用混合注意力架构和流形约束超连接,提升了长上下文处理效率。通过Muon优化器和多项基础设施优化,模型在训练和推理阶段展现出更高的稳定性和效率。预训练后,DeepSeek-V4在多个基准测试中超越前代,设立了新的性能标准。

DeepSeek-V4——迈向百万token上下文:保留V3的MoE和多token预测机制,提出混合注意力机制(CSA/HCA)、流形约束超连接mHC(替代残差)、Muon优化器(取代AdamW)

结构之法 算法之道
结构之法 算法之道 · 2026-05-03T15:54:48Z
读完 DeepSeek-V4 技术报告:这次最值得看的,不是“更大”,而是“更省”

DeepSeek-V4技术报告强调通过改进注意力机制和优化器,提高超长上下文处理效率,能够高效处理1M上下文,降低计算和缓存成本。模型在中文写作和白领任务中表现良好,但在复杂任务上仍需提升。整体目标是解决长上下文的成本问题,提供完整的技术方案。

读完 DeepSeek-V4 技术报告:这次最值得看的,不是“更大”,而是“更省”

清竹茶馆博客
清竹茶馆博客 · 2026-04-24T00:01:21Z

本文探讨了在Transformer模型中将点积结果除以√d_k的原因。这一操作旨在避免softmax函数饱和,确保梯度有效传播。通过数学推导,证明了点积的方差为d_k,缩放后方差归一化为1,从而保持训练的稳定性。文章还讨论了不同维度下的训练效果及现代优化器如何与√d_k的设计结合,以提升模型性能。

15|Scaled Dot-Product:那个根号 d_k 是怎么来的

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

文章讨论了优化器的选择与学习率的调整,指出不同任务对优化器的需求。SGD在某些视觉任务上优于Adam,学习率过小可能导致训练缓慢和局部极小值问题。此外,梯度消失与爆炸仍是深度学习中的挑战,需要理解其在现代架构中的表现。

【Transformer 与注意力机制】06|梯度下降与反向传播

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

本文介绍了机器学习中自动微分的实现方法,通过将复杂函数拆解为基本运算构建计算图,以精确高效地计算导数。文章还展示了反向传播、梯度更新及优化器的实现,并提供了一个类似PyTorch的开源框架。

自動微分 | DIY 實現自己的 PyTorch

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-04-12T23:45:09Z
如何开启mysql的optimizer trace

在MySQL中,可以通过开启优化器跟踪来分析索引使用情况,从而了解优化器如何处理查询以及未使用预期索引的原因。

如何开启mysql的optimizer trace

Nicksxs's Blog
Nicksxs's Blog · 2026-02-15T14:51:13Z

PostgreSQL 18引入了多列B树索引的跳过扫描功能,显著增强了优化器。在低基数情况下,跳过扫描能显著提升查询速度,而在高基数情况下,全索引扫描仍然更优。

罗宾斯·塔拉坎:你在v18之前就已经拥有的“跳过扫描”

Planet PostgreSQL
Planet PostgreSQL · 2026-02-04T13:05:00Z

最近笔者刷到论文《Why Adam Works Better with β1=β2: The Missing Gradient Scale Invariance Principle》,顾名思义,...

Adam优化器的最优超参数是β1=β2 ?

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2026-02-04T07:47:00Z

文章讨论了客户在批处理后首次执行查询时速度缓慢的问题。分析显示,查询计划在两次执行中不同,主要由于连接策略变化:首次使用合并连接,第二次使用嵌套循环连接。尽管表未清理或分析,优化器行为仍不同,导致执行时间差异。最后,作者提供了重现此现象的脚本。

弗雷德里克·尤埃尔:被低估的合并连接节点的奇怪案例

Planet PostgreSQL
Planet PostgreSQL · 2026-01-19T07:15:25Z

谷歌新论文《嵌套学习:深度学习架构的幻象》指出,大型语言模型存在“数字失忆症”,无法有效记忆新知识。研究强调优化器不仅是训练工具,更是记忆系统,提出“嵌套学习”新范式,强调模型深度与更新频率的平衡。新架构HOPE模仿人脑记忆机制,展现了解决持续学习问题的潜力,可能改变AI设计逻辑。

为什么这篇谷歌论文被称为「Attention is all you need」V2

量子位
量子位 · 2025-12-21T11:09:33Z

自去年提出的Muon优化器已在多个训练框架中应用,表现优异。本文介绍了从Adam切换到Muon的技术细节,包括不同版本的参数设置和注意事项。Muon专注于矩阵参数优化,用户需了解输入输出维度的定义以确保正确使用。

Muon优化器指南:快速上手与关键细节

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-11-19T15:08:00Z
Kimi的K2开源语言模型支持动态资源可用性和新优化器

Kimi发布了K2,一个拥有320亿参数的大型语言模型,采用新优化器MuonClip,解决了训练不稳定性。K2在推理和编程基准测试中表现优异,支持动态资源利用,具备高效推理能力,并在商业使用上有特定要求。

Kimi的K2开源语言模型支持动态资源可用性和新优化器

InfoQ
InfoQ · 2025-11-17T08:35:00Z
在MySQL中,一条SQL语句的执行全流程是怎样的?

本文详细介绍了MySQL中SQL语句的执行过程,包括客户端发送请求、连接器验证权限、分析器解析语句、优化器生成执行计划以及执行器从存储引擎获取数据并返回结果的各个步骤。

在MySQL中,一条SQL语句的执行全流程是怎样的?

程序新视界
程序新视界 · 2025-10-23T12:44:29Z

在MySQL的连表查询中,驱动表和被驱动表的选择会影响查询性能。驱动表通常数据量小且能有效利用索引,优化器会根据数据量、索引和过滤条件来决定驱动表。使用EXPLAIN可以帮助分析和优化查询。

什么是MySQL JOIN查询的驱动表和被驱动表?

程序新视界
程序新视界 · 2025-10-19T05:57:41Z

本文分析了MySQL中IS NULL和IS NOT NULL查询条件的索引使用情况。通过实例发现,索引的使用与数据量和分布有关,优化器根据执行成本决定是否使用索引,而非仅依据查询条件。总结指出,尽管理论上这两种条件都可能使用索引,但实际情况需结合具体数据分析。

MySQL中,IS NULL和IS NOT NULL不会走索引?错!

程序新视界
程序新视界 · 2025-10-09T12:47:07Z
为语音识别启用差分隐私的联邦学习:基准测试、自适应优化器与梯度裁剪

联邦学习(FL)与差分隐私(DP)在自动语音识别(ASR)中的应用尚待深入。本文通过逐层裁剪和梯度归一化技术,缓解了大模型在FL中面临的梯度异质性问题。实验结果表明,在强隐私保护下,FL与DP在用户规模达到数百万时是可行的,并且在不同规模下的字错误率有所改善。这为大模型的隐私保护FL算法设计提供了指导。

为语音识别启用差分隐私的联邦学习:基准测试、自适应优化器与梯度裁剪

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-29T00:00:00Z

本文探讨了动量机制对优化器(如SignSGD和Adam)学习率与Batch Size关系的影响。动量通过对梯度的滑动平均,等效于放大Batch Size,从而影响学习率的调整。研究表明,动量的引入使学习率与Batch Size之间的关系更加复杂,尤其在Adam中表现出新的特性。

重新思考学习率与Batch Size(四):EMA

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-09-22T06:37:00Z

机器之心数据服务现已上线,提供高效稳定的数据获取服务,简化数据爬取流程。

斯坦福:优化器「诸神之战」?AdamW 凭「稳定」胜出

机器之心
机器之心 · 2025-09-07T08:23:13Z
欢迎来到《优化器》,我们不懈追求更聪明、更健康的生活

《优化器》是每周通讯,探讨科技如何改善生活。作者Victoria Song分析各种科技产品,评估其对生活质量的提升。订阅者将获得个人随笔、实验室笔记及对健康和AI骗局的深度剖析。

欢迎来到《优化器》,我们不懈追求更聪明、更健康的生活

The Verge
The Verge · 2025-09-04T15:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码