小红花·文摘 - 小红花技术领袖俱乐部

华人团队研究表明，扩散语言模型在token数量受限时，其数据潜力超过自回归模型三倍，且未出现性能饱和。该模型通过双向建模和高计算密度提升学习效果，且在过拟合情况下性能仍可能持续提升。

华人团队终结Token危机：扩散模型数据潜力超自回归三倍

量子位 ·

本研究提出MAGNET方法，旨在增强解码器的双向建模能力。通过自监督训练和结合双向与因果注意力，MAGNET提升了生成文本和填补缺失文本的能力。

MAGNET: Enhancing Generative Decoders with Representation Learning and Infilling Capabilities

BriefGPT - AI 论文速递 ·