小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种新的混合专家模型框架，通过分段分配嵌入维度来提升计算效率，并提供了在特定架构下识别最佳专家数量的闭式表达式，为大规模模型设计提供指导。

理论上的变压器增强节段混合专家框架的最优扩展法则以提高效率

BriefGPT - AI 论文速递 ·

缩小嵌入以提高人工智能模型的速度和准确性

缩小嵌入以提高人工智能模型的速度和准确性

The New Stack ·

谷歌揭秘大模型计数能力不足的原因是嵌入维度不够大，词向量无法保持正交性。词汇量的增加是导致大模型计数能力下降的主要原因。作者认为这项研究划定了大模型计数能力的上下界，但仍有改进空间。

谷歌揭秘大模型不会数r原因：嵌入维度是关键，不止分词器问题

量子位 ·

自监督学习的阶梯特性

自监督学习的阶梯特性

The Berkeley Artificial Intelligence Research Blog ·