蚂蚁集团的论文《LLaDA2.0-Uni》提出了一种离散扩散语言模型,旨在统一视觉理解和图像生成。该模型通过将图像压缩为离散语义token,并利用混合专家架构实现文本和视觉token的并行处理,显著提升推理速度。LLaDA2.0-Uni在视觉理解和图像生成任务上表现优异,展现出理解与生成的连续交互能力。
近年来,扩散模型在自然语言处理中的应用引起关注,发展出离散扩散语言模型(DLM)。DLM通过去噪生成文本,支持并行解码,提高生成速度和结构控制。新加坡国立大学的Dimple模型结合视觉编码器与扩散语言模型,采用自回归与扩散的两阶段训练,性能优于同规模自回归模型。
完成下面两步后,将自动完成登录并继续当前操作。