小红花·文摘

何恺明首个语言模型：不走GPT老路，105M参数干翻主流

dotNET跨平台 ·

何恺明首个语言模型：105M参数，不走GPT自回归老路

量子位 ·

使用扩散生成文本（以及使用LLMs的投资回报）

Stack Overflow Blog ·

华人团队研究表明，扩散语言模型在token数量受限时，其数据潜力超过自回归模型三倍，且未出现性能饱和。该模型通过双向建模和高计算密度提升学习效果，且在过拟合情况下性能仍可能持续提升。

华人团队终结Token危机：扩散模型数据潜力超自回归三倍

量子位 ·

Mercury是一种高效的扩散语言模型，生成代码速度比传统模型快10倍，达到1109 tokens/秒。它采用“从噪声到结构化输出”的方法，具备动态纠错能力，提升生成灵活性。Mercury结合Transformer架构，优化硬件利用，解决CI/CD速度瓶颈。

扩散语言模型写代码！速度比自回归快10倍

量子位 ·

Dream 7B：一种强大且开放的扩散语言模型

The New Stack ·

通过自回归模型的适应扩展扩散语言模型

Apple Machine Learning Research ·

本文介绍了SSD-LM扩散语言模型，采用自条件嵌入扩散机制，提升了文本生成的效率和质量。研究表明，该模型在推断时间上更高效，并能根据指令进行微调，表现优于自回归模型。通过算法改进，成功构建了大规模扩散语言模型Plaid 1B，推动了扩散模型在文本生成中的应用。

文本上的掩蔽扩散模型的规模化研究

BriefGPT - AI 论文速递 ·

本文介绍了一种基于扩散语言模型的文本导向分子生成方法(TGM-DLM)，该方法克服了自回归方法的局限性，通过两阶段的扩散生成过程更新SMILES字符串中的标记嵌入。实验证明，TGM-DLM模型在生成具有特定属性的连贯准确分子方面优于自回归模型MolT5-Base，无需额外数据资源，为药物发现和相关科学领域开辟新途径。

基于扩散语言模型的文本引导分子生成

BriefGPT - AI 论文速递 ·