小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
ParaRNN:大规模非线性递归神经网络,可并行训练

苹果研究人员提出了ParaRNN框架,显著提高了非线性递归神经网络(RNN)的训练效率,实现了大规模并行训练。该方法使得7亿参数的RNN在语言建模任务中表现出与变换器相当的性能,且通过引入牛顿法,ParaRNN在保持非线性表达能力的同时实现了高效的并行计算。这一进展为RNN的广泛应用和进一步研究提供了新的可能性。

ParaRNN:大规模非线性递归神经网络,可并行训练

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-23T00:00:00Z
数据质量的幻觉:重新思考基于分类器的质量过滤在大规模语言模型预训练中的应用

在混合质量数据集上进行大规模模型预训练时,数据过滤至关重要。分类器质量过滤(CQF)通过训练二分类器来区分预训练数据和高质量数据,保留高分文档。研究表明,CQF能提升下游任务表现,但可能会隐含过滤高质量数据,未必改善语言建模。与合成数据相比,CQF的效果存在显著差异,挑战了其对数据质量有效性的看法。

数据质量的幻觉:重新思考基于分类器的质量过滤在大规模语言模型预训练中的应用

Apple Machine Learning Research
Apple Machine Learning Research · 2026-01-16T00:00:00Z
FS-DFM:基于少步扩散语言模型的快速准确长文本生成

FS-DFM(Few-Step Discrete Flow-Matching)是一种高效的长文本生成模型,通过优化采样步骤数量,显著减少生成长序列的延迟。在语言建模基准测试中,使用8个采样步骤时,其困惑度与传统1024步模型相当,速度提高了128倍。

FS-DFM:基于少步扩散语言模型的快速准确长文本生成

Apple Machine Learning Research
Apple Machine Learning Research · 2025-10-13T00:00:00Z
基于变换器的自回归流在连续空间中的灵活语言建模

本文介绍了一种新的语言建模框架TarFlowLM,该框架利用基于变换器的自回归正则化流,将离散标记空间转变为连续潜在空间。此方法增强了模型的灵活性,支持双向上下文捕捉和分块生成,能够处理复杂的潜在依赖关系。实验结果表明,该框架在语言建模基准上表现优异,展现了其灵活的建模能力。

基于变换器的自回归流在连续空间中的灵活语言建模

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-22T00:00:00Z
深入理解大模型 1:Transformer,大模型的基石

本文探讨了Transformer模型在序列建模中的重要性,解决了RNN和CNN在并行计算及长距离依赖方面的局限。通过多头注意力机制和位置编码,Transformer显著提升了语言建模和机器翻译的效果。

深入理解大模型 1:Transformer,大模型的基石

木鸟杂记
木鸟杂记 · 2025-09-10T13:45:26Z
目标混凝土评分匹配:离散扩散的整体框架

离散扩散是一种有效的离散数据建模与生成框架。本文提出目标混凝土评分匹配(TCSM),作为训练和微调离散扩散模型的新目标。TCSM支持从数据样本进行预训练,并可结合奖励函数或偏好数据进行后期训练。实验结果表明,TCSM在语言建模任务中表现优异,具备灵活性和样本效率。

目标混凝土评分匹配:离散扩散的整体框架

Apple Machine Learning Research
Apple Machine Learning Research · 2025-07-11T00:00:00Z

本研究提出了$ ext{B}_2 ext{S}_6$模型,以解决Mamba在长序列任务中的不足。该模型结合块选择动态和通道特定偏差,显著提升了性能,超越了S4和S4D,同时保持了语言建模效果。

Block-Derived Mamba for Long-Term Sequence Processing

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本研究提出了一种优化基础模型架构的方法,将神经网络重新概念化为关联记忆模块,并引入新的注意偏差和遗忘机制。实验结果表明,基于新框架Miras设计的序列模型在语言建模和常识推理任务中表现优异,超越了现有的线性循环神经网络和变换器。

Everything is Interconnected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z
通过自回归模型的适应扩展扩散语言模型

扩散语言模型(DLMs)旨在克服自回归模型的局限性。本文提出通过适应自回归模型构建文本扩散模型,展示了自回归与扩散建模目标之间的联系,并介绍了一种持续预训练方法。实验结果表明,转换后的模型在语言建模和推理基准上表现优异,超越了早期的DLMs,并与自回归模型竞争。

通过自回归模型的适应扩展扩散语言模型

Apple Machine Learning Research
Apple Machine Learning Research · 2025-04-16T00:00:00Z
Multi-Token突破注意力机制瓶颈,Meta发明了一种很新的Transformer

研究者提出了一种新型注意力机制——Multi-Token 注意力(MTA),旨在克服标准注意力在处理长上下文时的局限性。MTA通过卷积运算结合多个向量的相似性,更有效地关注相关信息。实验结果表明,MTA在语言建模和长距离依赖任务中优于传统方法,且参数增加极小。

Multi-Token突破注意力机制瓶颈,Meta发明了一种很新的Transformer

机器之心
机器之心 · 2025-04-04T10:23:57Z

本研究提出了一种块扩散语言模型,克服了传统扩散语言模型在似然建模和固定长度生成方面的局限性,提高了推理效率,并在语言建模基准测试中取得了新进展。

Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-12T00:00:00Z

本研究提出了一种新的互信息缩放定律,解决了自然语言中的长范围依赖问题,为长文档语言建模提供了重要见解,并为大型语言模型的发展奠定了理论基础。

L$^2$M: 长文档语言建模的互信息缩放定律

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-06T00:00:00Z
突破:连续扩散模型创造更自然的语言AI,性能更佳

该研究提出了一种连续扩散模型用于语言建模,通过统计流形提升文本生成质量和采样速度,取得了语言基准的最先进结果,且收敛性优于离散扩散模型。

突破:连续扩散模型创造更自然的语言AI,性能更佳

DEV Community
DEV Community · 2025-02-20T07:12:32Z

本研究提出递归推理扩展(RINS),显著提升了语言建模性能,特别是在0-shot ImageNet准确率上提高了2%。RINS增强了模型的渐近性能限制与扩展指数。

Recursive Inference Expansion Using Fractal Geometry of Language

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z
Titans:深入探讨下一代人工智能记忆架构

Titans是人工智能领域的重要进展,结合短期注意机制与可训练的长期记忆模块,克服了传统模型在处理长序列时的局限性。它在语言建模、时间序列预测和基因组分析等任务中表现出色,展现出更高的准确性和效率。Titans的混合记忆系统模仿人类记忆,具备适应性遗忘和并行训练等创新特性,未来有望在多个领域带来变革。

Titans:深入探讨下一代人工智能记忆架构

DEV Community
DEV Community · 2025-02-04T19:38:29Z

本研究探讨了调度自由优化器与加速SGD变体的理论联系,发现AdEMAMix在语言建模任务中表现优异,并提出了在不同批量设置下仍能保持良好性能的简化版本。

无调度优化器、AdEMAMix与加速SGD变体之间的联系

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-04T00:00:00Z

本研究提出DINT变换器,改进了DIFF变换器在全局上下文建模和数值稳定性方面的不足,通过差分-积分机制增强了对全局依赖的捕捉能力。实验结果表明,DINT在长上下文语言建模和关键信息检索中表现优异。

Differential-Integral Transformer

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-29T00:00:00Z
近8年后,谷歌Transformer继任者「Titans」来了,上下文记忆瓶颈被打破

谷歌推出的新架构Titans结合了注意力机制和长期记忆模块,能够处理超过200万tokens的上下文,性能超越Transformer和GPT-4。Titans通过三种变体(MAC、MAG、MAL)优化记忆管理,在语言建模和时序预测等任务中表现优异,开辟了新的研究方向。

近8年后,谷歌Transformer继任者「Titans」来了,上下文记忆瓶颈被打破

机器之心
机器之心 · 2025-01-15T09:23:38Z

谷歌的新Titan架构突破了Transformer的记忆瓶颈,提出了长期记忆模块,能够处理超过200万的上下文窗口。该模块借鉴人脑原理,通过惊喜程度优化记忆,提升了泛化能力。实验表明,Titan在语言建模和时间序列预测等任务上超越了现有模型,展现出独立学习能力。

谷歌新架构一战成名,打破Transformer记忆瓶颈,姚班校友钟沛林新作

量子位
量子位 · 2025-01-14T07:07:43Z

本研究提出了TreeKV,一种直观且无需训练的键值缓存压缩方法,旨在解决长序列和资源有限环境中的信息保留问题。TreeKV通过树结构实现平滑缓存压缩,在语言建模任务中表现优异,相比基线模型在长上下文中显著提升性能,最佳效率仅需6%的预算。

TreeKV:基于树结构的平滑键值缓存压缩

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-09T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码