量子位 ·

美团盯上原生多模态！路子还很野：把图像语音都当成Token来预测

💡 原文中文，约6400字，阅读约需16分钟。

📝

内容提要

美团LongCat提出的DiNA原生多模态架构将图像、语音和文本统一为离散Token，突破了传统模型的局限。该模型通过共享参数和机制，实现了更高效的理解与生成，推动了多模态AI的发展。

🎯

❓

DiNA架构将图像、语音和文本统一为离散Token，突破了传统模型的拼凑式架构，实现了更高效的理解与生成。

DiNA架构通过Tokenizer将不同模态的信号转化为离散Token，所有模态共用同一套参数和机制进行处理。

LongCat-Next在多个任务上展现出与多模专用模型相当甚至领先的性能，证明了多模态训练的有效性。

研究表明，离散视觉建模的性能瓶颈主要取决于数据规模，而非离散化本身，随着数据规模的扩大，性能差距会缩小。

在DiNA架构中，理解和生成都通过预测下一个Token来实现，二者的数学形式相同，促进了协同效应。

美团LongCat的研究验证了统一多模态预训练的可行性，并开源了相关技术，为多模态AI的发展提供了新的路径。

🏷️

OpenAI更新版图像生成器现可从网络获取信息
OpenAI推出了更新版的图像生成器ChatGPT Images 2.0，具备新的思考能力，能够从网络获取信息，并基于单一提示生成多幅图像。该版本支持更高...
通过持续对话，让与Gemini语音助手的交流更加自然高效
谷歌推出了“持续对话”功能，用户可以在首次请求后继续与Gemini语音助手对话。只需在Google Home应用中启用此功能，即可享受更流畅的互动体验。
Clerk Chat 更名为 Clerk AI，加倍投入面向企业大规模语音和消息传递的对话式 AI 代理
Clerk AI于2026年4月20日更名，专注于为效果营销构建对话式AI代理。该平台支持智能语音和消息代理的大规模部署，能够进行个性化沟通并与CRM系统...
【Rust日报】2026-04-21 wrkflw v0.8.0 发布：支持本地运行 GitHub Actions 的 CLI 工具
wrkflw v0.8.0 发布，支持本地运行 GitHub Actions，提供命令行工具和 TUI 界面，便于开发者验证 CI 配置。新增表达式求值器...
OPPO Find X9 Ultra 影像评测：今年最不讲道理的拍照手机
OPPO Find X9 Ultra 是一款影像旗舰手机，配备双 2 亿像素和 10 倍光学长焦镜头，拍摄性能超越前代，支持 8K 视频录制，具备高动态范...
Christophe Pettus: All your GUCs in a row: allow_in_place_tablespaces
allow_in_place_tablespaces exists so the PostgreSQL test suite can test repli...