实时互动网 ·

LongCat-Flash-Omni 正式发布并开源：开启全模态实时交互时代

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

美团推出了LongCat-Flash-Omni模型，参数达到5600亿，支持低延迟音视频交互，表现优异。该模型在多模态任务中实现了开源最先进水平，具备强大的文本、图像、音频和视频理解能力，有效解决了推理延迟问题。

🎯

关键要点

美团推出LongCat-Flash-Omni模型，参数达到5600亿，支持低延迟音视频交互。
LongCat-Flash-Omni在多模态任务中实现了开源最先进水平，具备强大的文本、图像、音频和视频理解能力。
该模型采用高效架构设计，集成多模态感知模块与语音重建模块。
模型实现了毫秒级响应，解决了推理延迟问题。
LongCat-Flash-Omni支持128K tokens上下文窗口及超8分钟音视频交互，具备显著优势。
采用渐进式早期多模融合训练策略，确保全模态性能强劲且无单模态性能退化。
在综合性全模态基准测试中，LongCat-Flash-Omni表现优异，达到了开源最先进水平。
模型在文本、图像、音频、视频等各项模态的能力均位居开源模型前列。
LongCat-Flash-Omni在实时多模态交互中展现出显著优势，评分高于当前最优开源模型。
未来将进一步优化实时性、类人性与准确性等维度。

❓

延伸问答

LongCat-Flash-Omni模型的主要特点是什么？

LongCat-Flash-Omni模型具有5600亿参数，支持低延迟音视频交互，具备强大的文本、图像、音频和视频理解能力。

LongCat-Flash-Omni如何解决推理延迟问题？

该模型采用高效架构设计和渐进式早期多模融合训练策略，实现了毫秒级响应，解决了推理延迟的痛点。

LongCat-Flash-Omni在多模态任务中的表现如何？

在综合性全模态基准测试中，LongCat-Flash-Omni达到了开源最先进水平，表现优异，尤其在文本、图像、音频和视频理解方面。

LongCat-Flash-Omni支持多长的音视频交互？

该模型支持超过8分钟的音视频交互和128K tokens的上下文窗口。

LongCat-Flash-Omni的训练策略有什么创新之处？

模型采用渐进式早期多模融合训练策略，逐步融入不同模态的数据，确保全模态性能强劲且无单模态性能退化。

LongCat-Flash-Omni与其他开源模型相比有什么优势？

LongCat-Flash-Omni在实时多模态交互中展现出显著优势，评分高于当前最优开源模型，且在各项模态能力上均位居前列。

🏷️

继续阅读

后搜索时代的谷歌时代开始了
谷歌正在转型为一个主动搜索的AI代理，而不仅仅是一个搜索引擎。Vergecast讨论了谷歌在AI生态系统中的信心及其对网络未来的影响，并提到谷歌I/O大会...
一家公司营收创新高，却裁掉了1100人：AI时代，你的岗位属于哪一类？ - 蝈蝈俊
Cloudflare在2026年第一季度发布超预期财报后，宣布裁员1100人，首次进行大规模裁员。CEO Matthew Prince表示，裁员主要是因为...
Gemini 3.5 Flash编码能力真相解析：APEX冠军强在长流程多工具切换
Gemini 3.5 Flash在APEX测试中表现出色，擅长处理长流程和多工具切换的工作流，但不具备编程能力。其优势在于快速执行任务，而非深度推理。未来...
从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源
美团龙猫LongCat发布了LongCat-Video-Avatar 1.5，提升了数字人视频模型的唇形同步、物理合理性和多人互动能力，支持复杂场景下的高...
AI 时代的平台工程
文章探讨了AI时代平台工程的变革，强调CLI工具的重要性。通过自然语言与Agent交互，开发者能够实现代码的自动化开发和部署，从而提升工作效率。CLI、S...
告别 GPU 独占时代：用 HAMi 实现训练推理一体化——博维智慧 GPU 虚拟化实战
博维智慧科技通过Kubernetes和HAMi实现科研实验室GPU资源的高效管理，提升了70%的GPU利用率。该方案支持训练与推理的物理隔离，优化显存使用...