实时互动网 ·

美团发布原生多模态 LongCat-Next：当视觉和语音成为AI的母语

💡 原文中文，约5300字，阅读约需13分钟。

📝

内容提要

LongCat团队推出了新AI模型LongCat-Next，旨在统一处理图像、声音和文本等多模态信息。通过离散原生自回归架构DiNA和视觉分词器dNaViT，该模型实现了不同模态的统一建模，增强了理解与生成的协同能力。研究表明，离散化能更好地理解物理世界，且不损失信息。该模型已开源，欢迎开发者参与。

🎯

关键要点

LongCat团队推出了新AI模型LongCat-Next，旨在统一处理多模态信息。
模型通过离散原生自回归架构DiNA和视觉分词器dNaViT实现了不同模态的统一建模。
离散化能够更好地理解物理世界，且不损失信息。
LongCat-Next模型和离散分词器已开源，欢迎开发者参与。
DiNA架构将所有模态统一为离散Token，打破模态间的隔阂。
LongCat-Next实现了视觉理解与生成的对称性，理解与生成被统一为同一数学问题。
dNaViT技术将图像拆解为有意义的“视觉词汇”，支持任意分辨率的图像编码与解码。
SAE编码器通过视觉-语言监督学习高信息密度的表征，确保离散Token的语义完备性。
LongCat-Next在多个维度上展现出与多模专用模型相当甚至领先的性能。
模型在理解与生成上表现出协同潜力，理解没有损害生成，反而增强了性能。
LongCat-Next在文本任务和音频领域同样展现出良好的通用性，支持自然的语音交互。
LongCat-Next的开源为AI理解物理世界的多模态信号提供了新的视角。

🔎

延伸解读

多模态统一建模的意义

LongCat-Next通过将图像、声音和文本统一为离散Token，打破了传统模型中模态间的隔阂。这种统一建模不仅提高了模型的理解与生成能力，还为AI在物理世界的应用提供了更为广泛的可能性。开发者可以利用这一框架，探索更多跨模态的应用场景。

离散化的优势与挑战

尽管离散化在细粒度感知上被认为存在局限，LongCat-Next的表现却挑战了这一观点。通过dNaViT技术，模型在视觉理解和生成上展现出优异的性能，表明离散化并非信息损失的代名词，而是可以实现高保真度的表达。开发者在使用时需关注如何构建语义完备的离散表示。

理解与生成的协同潜力

LongCat-Next的设计使得理解与生成可以在同一模型中协同进行，优化损失几乎没有增加。这一发现为多模态AI的发展提供了新的思路，表明在统一框架下，模型不仅能理解信息，还能有效生成内容，适用于更复杂的任务场景。

❓

延伸问答

LongCat-Next模型的主要功能是什么？

LongCat-Next模型旨在统一处理图像、声音和文本等多模态信息，增强理解与生成的协同能力。

LongCat-Next是如何实现不同模态的统一建模的？

LongCat-Next通过离散原生自回归架构DiNA和视觉分词器dNaViT，将所有模态统一为离散Token，实现了不同模态的统一建模。

离散化在LongCat-Next中有什么优势？

离散化能够更好地理解物理世界，且不损失信息，支持高信息密度的表征。

LongCat-Next的开源对开发者有什么意义？

LongCat-Next的开源为开发者提供了构建能够感知、理解并作用于真实世界的AI的基础，促进多模态信号的研究。

dNaViT技术在LongCat-Next中起什么作用？

dNaViT技术将图像拆解为有意义的“视觉词汇”，支持任意分辨率的图像编码与解码。

LongCat-Next在理解与生成方面的表现如何？

LongCat-Next在理解与生成上表现出协同潜力，理解没有损害生成，反而增强了性能。

🏷️