小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
ParaRNN:大规模非线性递归神经网络,可并行训练

苹果研究人员提出了ParaRNN框架,显著提高了非线性递归神经网络(RNN)的训练效率,实现了大规模并行训练。该方法使得7亿参数的RNN在语言建模任务中表现出与变换器相当的性能,且通过引入牛顿法,ParaRNN在保持非线性表达能力的同时实现了高效的并行计算。这一进展为RNN的广泛应用和进一步研究提供了新的可能性。

ParaRNN:大规模非线性递归神经网络,可并行训练

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-23T00:00:00Z
数据质量的幻觉:重新思考基于分类器的质量过滤在大规模语言模型预训练中的应用

在混合质量数据集上进行大规模模型预训练时,数据过滤至关重要。分类器质量过滤(CQF)通过训练二分类器来区分预训练数据和高质量数据,保留高分文档。研究表明,CQF能提升下游任务表现,但可能会隐含过滤高质量数据,未必改善语言建模。与合成数据相比,CQF的效果存在显著差异,挑战了其对数据质量有效性的看法。

数据质量的幻觉:重新思考基于分类器的质量过滤在大规模语言模型预训练中的应用

Apple Machine Learning Research
Apple Machine Learning Research · 2026-01-16T00:00:00Z
FS-DFM:基于少步扩散语言模型的快速准确长文本生成

FS-DFM(Few-Step Discrete Flow-Matching)是一种高效的长文本生成模型,通过优化采样步骤数量,显著减少生成长序列的延迟。在语言建模基准测试中,使用8个采样步骤时,其困惑度与传统1024步模型相当,速度提高了128倍。

FS-DFM:基于少步扩散语言模型的快速准确长文本生成

Apple Machine Learning Research
Apple Machine Learning Research · 2025-10-13T00:00:00Z
基于变换器的自回归流在连续空间中的灵活语言建模

本文介绍了一种新的语言建模框架TarFlowLM,该框架利用基于变换器的自回归正则化流,将离散标记空间转变为连续潜在空间。此方法增强了模型的灵活性,支持双向上下文捕捉和分块生成,能够处理复杂的潜在依赖关系。实验结果表明,该框架在语言建模基准上表现优异,展现了其灵活的建模能力。

基于变换器的自回归流在连续空间中的灵活语言建模

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-22T00:00:00Z
深入理解大模型 1:Transformer,大模型的基石

本文探讨了Transformer模型在序列建模中的重要性,解决了RNN和CNN在并行计算及长距离依赖方面的局限。通过多头注意力机制和位置编码,Transformer显著提升了语言建模和机器翻译的效果。

深入理解大模型 1:Transformer,大模型的基石

木鸟杂记
木鸟杂记 · 2025-09-10T13:45:26Z
目标混凝土评分匹配:离散扩散的整体框架

离散扩散是一种有效的离散数据建模与生成框架。本文提出目标混凝土评分匹配(TCSM),作为训练和微调离散扩散模型的新目标。TCSM支持从数据样本进行预训练,并可结合奖励函数或偏好数据进行后期训练。实验结果表明,TCSM在语言建模任务中表现优异,具备灵活性和样本效率。

目标混凝土评分匹配:离散扩散的整体框架

Apple Machine Learning Research
Apple Machine Learning Research · 2025-07-11T00:00:00Z

本研究提出了$ ext{B}_2 ext{S}_6$模型,以解决Mamba在长序列任务中的不足。该模型结合块选择动态和通道特定偏差,显著提升了性能,超越了S4和S4D,同时保持了语言建模效果。

Block-Derived Mamba for Long-Term Sequence Processing

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本研究提出了一种优化基础模型架构的方法,将神经网络重新概念化为关联记忆模块,并引入新的注意偏差和遗忘机制。实验结果表明,基于新框架Miras设计的序列模型在语言建模和常识推理任务中表现优异,超越了现有的线性循环神经网络和变换器。

Everything is Interconnected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z
通过自回归模型的适应扩展扩散语言模型

扩散语言模型(DLMs)旨在克服自回归模型的局限性。本文提出通过适应自回归模型构建文本扩散模型,展示了自回归与扩散建模目标之间的联系,并介绍了一种持续预训练方法。实验结果表明,转换后的模型在语言建模和推理基准上表现优异,超越了早期的DLMs,并与自回归模型竞争。

通过自回归模型的适应扩展扩散语言模型

Apple Machine Learning Research
Apple Machine Learning Research · 2025-04-16T00:00:00Z
Multi-Token突破注意力机制瓶颈,Meta发明了一种很新的Transformer

研究者提出了一种新型注意力机制——Multi-Token 注意力(MTA),旨在克服标准注意力在处理长上下文时的局限性。MTA通过卷积运算结合多个向量的相似性,更有效地关注相关信息。实验结果表明,MTA在语言建模和长距离依赖任务中优于传统方法,且参数增加极小。

Multi-Token突破注意力机制瓶颈,Meta发明了一种很新的Transformer

机器之心
机器之心 · 2025-04-04T10:23:57Z

本研究提出了一种块扩散语言模型,克服了传统扩散语言模型在似然建模和固定长度生成方面的局限性,提高了推理效率,并在语言建模基准测试中取得了新进展。

Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-12T00:00:00Z

本研究提出了一种新的互信息缩放定律,解决了自然语言中的长范围依赖问题,为长文档语言建模提供了重要见解,并为大型语言模型的发展奠定了理论基础。

L$^2$M: 长文档语言建模的互信息缩放定律

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-06T00:00:00Z
突破:连续扩散模型创造更自然的语言AI,性能更佳

该研究提出了一种连续扩散模型用于语言建模,通过统计流形提升文本生成质量和采样速度,取得了语言基准的最先进结果,且收敛性优于离散扩散模型。

突破:连续扩散模型创造更自然的语言AI,性能更佳

DEV Community
DEV Community · 2025-02-20T07:12:32Z

本研究提出递归推理扩展(RINS),显著提升了语言建模性能,特别是在0-shot ImageNet准确率上提高了2%。RINS增强了模型的渐近性能限制与扩展指数。

Recursive Inference Expansion Using Fractal Geometry of Language

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z
Titans:深入探讨下一代人工智能记忆架构

Titans是人工智能领域的重要进展,结合短期注意机制与可训练的长期记忆模块,克服了传统模型在处理长序列时的局限性。它在语言建模、时间序列预测和基因组分析等任务中表现出色,展现出更高的准确性和效率。Titans的混合记忆系统模仿人类记忆,具备适应性遗忘和并行训练等创新特性,未来有望在多个领域带来变革。

Titans:深入探讨下一代人工智能记忆架构

DEV Community
DEV Community · 2025-02-04T19:38:29Z

本研究探讨了调度自由优化器与加速SGD变体的理论联系,发现AdEMAMix在语言建模任务中表现优异,并提出了在不同批量设置下仍能保持良好性能的简化版本。

无调度优化器、AdEMAMix与加速SGD变体之间的联系

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-04T00:00:00Z

本研究提出DINT变换器,改进了DIFF变换器在全局上下文建模和数值稳定性方面的不足,通过差分-积分机制增强了对全局依赖的捕捉能力。实验结果表明,DINT在长上下文语言建模和关键信息检索中表现优异。

Differential-Integral Transformer

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-29T00:00:00Z
近8年后,谷歌Transformer继任者「Titans」来了,上下文记忆瓶颈被打破

谷歌推出的新架构Titans结合了注意力机制和长期记忆模块,能够处理超过200万tokens的上下文,性能超越Transformer和GPT-4。Titans通过三种变体(MAC、MAG、MAL)优化记忆管理,在语言建模和时序预测等任务中表现优异,开辟了新的研究方向。

近8年后,谷歌Transformer继任者「Titans」来了,上下文记忆瓶颈被打破

机器之心
机器之心 · 2025-01-15T09:23:38Z

谷歌的新Titan架构突破了Transformer的记忆瓶颈,提出了长期记忆模块,能够处理超过200万的上下文窗口。该模块借鉴人脑原理,通过惊喜程度优化记忆,提升了泛化能力。实验表明,Titan在语言建模和时间序列预测等任务上超越了现有模型,展现出独立学习能力。

谷歌新架构一战成名,打破Transformer记忆瓶颈,姚班校友钟沛林新作

量子位
量子位 · 2025-01-14T07:07:43Z

本研究提出了TreeKV,一种直观且无需训练的键值缓存压缩方法,旨在解决长序列和资源有限环境中的信息保留问题。TreeKV通过树结构实现平滑缓存压缩,在语言建模任务中表现优异,相比基线模型在长上下文中显著提升性能,最佳效率仅需6%的预算。

TreeKV:基于树结构的平滑键值缓存压缩

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-09T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码