小红花·文摘 - 小红花技术领袖俱乐部

大语言模型发展史：从猜词游戏到GPT智能涌现

大语言模型发展史：从猜词游戏到GPT智能涌现

极道 ·

《GPT 图解》笔记：GPT-从 Decoder 到自回归文本生成

《GPT 图解》笔记：GPT-从 Decoder 到自回归文本生成

Ying’s Blog ·

带有迭代去噪的归一化流

带有迭代去噪的归一化流

Apple Machine Learning Research ·

因果掩码是自回归生成模型中的关键技术，确保模型在训练时仅依赖过去的信息，解决了Transformer在并行处理与生成任务之间的矛盾。通过将上三角部分设为负无穷，因果掩码确保模型在生成时不“偷看”未来的token。这一技术是现代大语言模型（如GPT系列）的基础，提升了模型训练的效率和规模。

【Transformer 与注意力机制】17｜Causal Mask：让模型只看过去不看未来

土法炼钢兴趣小组的博客 ·

美团发布原生多模态 LongCat-Next：当视觉和语音成为AI的母语

美团发布原生多模态 LongCat-Next：当视觉和语音成为AI的母语

实时互动网 ·

在线教程丨GLM-Image基于自回归+扩散解码器混合架构，精准理解指令写对文字

在线教程丨GLM-Image基于自回归+扩散解码器混合架构，精准理解指令写对文字

HyperAI超神经 ·

基于变换器的自回归流在连续空间中的灵活语言建模

基于变换器的自回归流在连续空间中的灵活语言建模

Apple Machine Learning Research ·

HybridVLA是一种新型视觉-语言-动作模型，结合自回归和扩散策略，旨在提升机器人在动态环境中的操作能力。通过协同训练，该模型有效整合两种生成方法的优势，提高了动作预测的准确性和鲁棒性，并在多样化数据集上展现出优越的性能。

HybridVLA——让单一LLM同时具备扩散和自回归动作预测能力：训练时既扩散也回归，但推理时则扩散

结构之法算法之道 ·

Dimple：一种用于高效可控文本生成的离散扩散多模态语言模型

Dimple：一种用于高效可控文本生成的离散扩散多模态语言模型

实时互动网 ·

本研究提出了一种无训练的水印框架IndexMark，针对自回归图像生成模型中的水印技术不足，通过匹配和替换相似索引嵌入水印，确保图像质量，同时展现出良好的鲁棒性和验证精度。

Watermarking Technology for Untrained Image Generation

BriefGPT - AI 论文速递 ·

MAGI-1是一种新型世界模型，通过自回归预测视频片段序列生成视频。该模型在图像到视频任务中表现优异，具备高时间一致性和可扩展性，适合实时和内存高效部署。

MAGI-1: Large-Scale Autoregressive Video Generation

BriefGPT - AI 论文速递 ·

MAGI-1：大规模自回归视频生成

MAGI-1：大规模自回归视频生成

DEV Community ·

DART：用于可扩展文本到图像生成的去噪自回归变换器

DART：用于可扩展文本到图像生成的去噪自回归变换器

Apple Machine Learning Research ·

OpenAI发布了改进版的GPT-4o图像生成能力

OpenAI发布了改进版的GPT-4o图像生成能力

InfoQ ·

清华朱军团队 | 从点云到高保真三维网格：DeepMesh突破自回归生成瓶颈

清华朱军团队 | 从点云到高保真三维网格：DeepMesh突破自回归生成瓶颈

机器之心 ·

GPT-4o图像生成的秘密，OpenAI 没说，网友已经拼出真相？

GPT-4o图像生成的秘密，OpenAI 没说，网友已经拼出真相？

机器之心 ·

Uni-3DAR用自回归统一微观与宏观的3D世界，性能超扩散模型256%，推理快21.8倍

Uni-3DAR用自回归统一微观与宏观的3D世界，性能超扩散模型256%，推理快21.8倍

机器之心 ·

本研究提出了一种粗到细的标记预测方法，解决自回归图像生成中的量化误差问题。实验结果显示，Inception分数平均提升59分，且采样速度更快。

Enhancing Autoregressive Image Generation through Coarse-to-Fine Label Prediction

BriefGPT - AI 论文速递 ·

逐字生成非最优？试试逐「块」生成！Block Diffusion打通了自回归与扩散

逐字生成非最优？试试逐「块」生成！Block Diffusion打通了自回归与扩散

机器之心 ·

FlexTok：将图像重采样为可变长度的1D标记序列

FlexTok：将图像重采样为可变长度的1D标记序列

Apple Machine Learning Research ·