小红花·文摘

ParaRNN：大规模非线性递归神经网络，可并行训练

Apple Machine Learning Research ·

数据质量的幻觉：重新思考基于分类器的质量过滤在大规模语言模型预训练中的应用

Apple Machine Learning Research ·

FS-DFM：基于少步扩散语言模型的快速准确长文本生成

Apple Machine Learning Research ·

基于变换器的自回归流在连续空间中的灵活语言建模

Apple Machine Learning Research ·

深入理解大模型 1：Transformer，大模型的基石

木鸟杂记 ·

目标混凝土评分匹配：离散扩散的整体框架

Apple Machine Learning Research ·

本研究提出了$ ext{B}_2 ext{S}_6$模型，以解决Mamba在长序列任务中的不足。该模型结合块选择动态和通道特定偏差，显著提升了性能，超越了S4和S4D，同时保持了语言建模效果。

Block-Derived Mamba for Long-Term Sequence Processing

BriefGPT - AI 论文速递 ·

本研究提出了一种优化基础模型架构的方法，将神经网络重新概念化为关联记忆模块，并引入新的注意偏差和遗忘机制。实验结果表明，基于新框架Miras设计的序列模型在语言建模和常识推理任务中表现优异，超越了现有的线性循环神经网络和变换器。

Everything is Interconnected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization

BriefGPT - AI 论文速递 ·

通过自回归模型的适应扩展扩散语言模型

Apple Machine Learning Research ·

Multi-Token突破注意力机制瓶颈，Meta发明了一种很新的Transformer

机器之心 ·

本研究提出了一种块扩散语言模型，克服了传统扩散语言模型在似然建模和固定长度生成方面的局限性，提高了推理效率，并在语言建模基准测试中取得了新进展。

Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种新的互信息缩放定律，解决了自然语言中的长范围依赖问题，为长文档语言建模提供了重要见解，并为大型语言模型的发展奠定了理论基础。

L$^2$M: 长文档语言建模的互信息缩放定律

BriefGPT - AI 论文速递 ·

突破：连续扩散模型创造更自然的语言AI，性能更佳

DEV Community ·

本研究提出递归推理扩展（RINS），显著提升了语言建模性能，特别是在0-shot ImageNet准确率上提高了2%。RINS增强了模型的渐近性能限制与扩展指数。

Recursive Inference Expansion Using Fractal Geometry of Language

BriefGPT - AI 论文速递 ·

Titans：深入探讨下一代人工智能记忆架构

DEV Community ·

本研究探讨了调度自由优化器与加速SGD变体的理论联系，发现AdEMAMix在语言建模任务中表现优异，并提出了在不同批量设置下仍能保持良好性能的简化版本。

无调度优化器、AdEMAMix与加速SGD变体之间的联系

BriefGPT - AI 论文速递 ·

本研究提出DINT变换器，改进了DIFF变换器在全局上下文建模和数值稳定性方面的不足，通过差分-积分机制增强了对全局依赖的捕捉能力。实验结果表明，DINT在长上下文语言建模和关键信息检索中表现优异。

Differential-Integral Transformer

BriefGPT - AI 论文速递 ·

近8年后，谷歌Transformer继任者「Titans」来了，上下文记忆瓶颈被打破

机器之心 ·

谷歌的新Titan架构突破了Transformer的记忆瓶颈，提出了长期记忆模块，能够处理超过200万的上下文窗口。该模块借鉴人脑原理，通过惊喜程度优化记忆，提升了泛化能力。实验表明，Titan在语言建模和时间序列预测等任务上超越了现有模型，展现出独立学习能力。

谷歌新架构一战成名，打破Transformer记忆瓶颈，姚班校友钟沛林新作

量子位 ·

本研究提出了TreeKV，一种直观且无需训练的键值缓存压缩方法，旨在解决长序列和资源有限环境中的信息保留问题。TreeKV通过树结构实现平滑缓存压缩，在语言建模任务中表现优异，相比基线模型在长上下文中显著提升性能，最佳效率仅需6%的预算。

TreeKV：基于树结构的平滑键值缓存压缩

BriefGPT - AI 论文速递 ·