美团技术团队 ·

LongCat-Flash-Omni正式发布并开源：开启全模态实时交互时代

💡 原文中文，约4500字，阅读约需11分钟。

📝

内容提要

美团发布了LongCat-Flash-Omni模型，参数达到5600亿，支持低延迟音视频交互，表现优异，解决了推理延迟问题，适用于多种应用场景。

🎯

❓

LongCat-Flash-Omni模型的参数规模达到5600亿。

LongCat-Flash-Omni实现了低延迟的实时音视频交互能力，解决了推理延迟问题。

LongCat-Flash-Omni支持文本、图像、音频和视频等多模态的处理。

LongCat-Flash-Omni采用渐进式早期多模融合训练策略，逐步融入不同模态的数据。

LongCat-Flash-Omni在音频识别方面表现优异，优于许多现有模型。

LongCat-Flash-Omni已正式开源，开发者可以在Hugging Face和GitHub上体验和使用。

🏷️

在智能代理时代，MCP和合成数据如何重塑合规性
Software development has always had a way of quietly distributing sensitive d...
后搜索时代的谷歌时代开始了
谷歌正在转型为一个主动搜索的AI代理，而不仅仅是一个搜索引擎。Vergecast讨论了谷歌在AI生态系统中的信心及其对网络未来的影响，并提到谷歌I/O大会...
专注动漫风格，全新生图模型Anima V1已开源；哈佛大学发布机器学习系统教学平台MLSysBook，含33个可交互实验
Anima V1 是 CircleStone Labs 于 2026 年发布的动漫风格图像生成模型，用户可以通过文本描述生成精美图像，适用于角色立绘和插画...
一家公司营收创新高，却裁掉了1100人：AI时代，你的岗位属于哪一类？ - 蝈蝈俊
Cloudflare在2026年第一季度发布超预期财报后，宣布裁员1100人，首次进行大规模裁员。CEO Matthew Prince表示，裁员主要是因为...
Gemini 3.5 Flash编码能力真相解析：APEX冠军强在长流程多工具切换
Gemini 3.5 Flash在APEX测试中表现出色，擅长处理长流程和多工具切换的工作流，但不具备编程能力。其优势在于快速执行任务，而非深度推理。未来...
从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源
美团龙猫LongCat发布了LongCat-Video-Avatar 1.5，提升了数字人视频模型的唇形同步、物理合理性和多人互动能力，支持复杂场景下的高...