小红花·文摘 - 小红花技术领袖俱乐部

本研究探讨了大型语言模型预训练中的超参数调优，重点分析了学习率和权重衰减的关系，并提出了一种预测最佳权重衰减的新方法，为超参数选择提供理论支持。

电力线：大型语言模型预训练中的权重衰减和批处理大小的缩放法则

BriefGPT - AI 论文速递 ·

本研究探讨了多任务高斯过程（MTGP）的输出相关推断，详细阐述了相关公式及其梯度，旨在优化多输出模型的性能，并为相关应用提供理论支持。

Derivation of Output Correlation Inferences for Multi-Output (i.e., Multi-Task) Gaussian Processes

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的初始化方法，旨在解决样本数量较少时从平稳分布有效采样多模态分布的难题。研究表明，低复杂度的Ising度量能够有效学习样本，为相关方法提供理论支持。

Effective Learning and Sampling of Multimodal Distributions Based on Data Initialization

BriefGPT - AI 论文速递 ·