量子位 ·

美团盯上原生多模态！路子还很野：把图像语音都当成Token来预测

💡 原文中文，约6400字，阅读约需16分钟。

📝

内容提要

美团LongCat提出的DiNA原生多模态架构将图像、语音和文本统一为离散Token，突破了传统模型的局限。该模型通过共享参数和机制，实现了更高效的理解与生成，推动了多模态AI的发展。

🎯

❓

DiNA架构的核心理念是将图像、语音和文本统一为离散Token，通过共享参数和机制实现更高效的理解与生成。

美团LongCat通过将所有模态的输入转化为离散Token，并使用统一的学习器处理Token序列，实现了多模态的统一建模。

LongCat-Next模型在多个任务上展现出与多模专用模型相当甚至领先的性能，且在纯文本任务上也保持了领先成绩。

离散视觉建模的性能瓶颈主要取决于数据规模，而非离散化本身。

美团LongCat的研究验证了统一多模态预训练的可行性，并开源了相关技术，推动了多模态AI的发展。

DiNA架构通过Tokenizer将文本、图像和语音的原始信号转化为离散Token，然后通过学习器处理这些Token序列。

🏷️

Micro Talk | Some people believe that as long as they don't take XX, they will definitely do well!
抱歉，您提供的文本缺乏具体内容，仅包含日期和博客名称。请提供更多信息以便我进行总结。
派早报：Google 发布 Gemma 4 开源系列模型、智谱发布 GLM-5V-Turbo 多模态模型等
Google于4月2日发布了开源模型Gemma 4，强调参数效率和本地运行能力，支持多种设备和语言，具备多模态处理能力，适用于Agent工作流开发。该模型...
项目场景扩展(二)
抱歉，您没有提供文章的具体内容。请提供需要总结的文章文本，我将为您进行总结。
无主之地2 MacOS 1.8.5 天邈汉化补丁与一键安装脚本
在M4上顺利玩《无主之地3》后，尝试Steam版《无主之地2》时遇到汉化问题。通过某乎找到汉化补丁，但缺少语音且配置不匹配。最终使用一键汉化脚本解决了问题。
Two Pitfalls to Avoid When Using the ESP32-S3 Module
抱歉，您没有提供具体的文章内容。请提供要总结的文章文本，我将为您进行总结。
学习周刊-总第257期-2026年第14周
本周刊介绍了多个优秀项目，包括人工智能编码工具、GPU加速的Redis客户端、轻量级截图应用和Chrome扩展，涉及Go语言和Vue技术生态。