美团LongCat团队发布了LongCat-AudioDiT模型,采用全新的端到端文本转语音技术,减少信息损失。该模型在Seed基准测试中表现优异,取得最佳的说话人相似度和可懂度,证明了在波形潜空间生成语音的有效性。LongCat-AudioDiT以简化架构和高保真合成为目标,已开源,期待推动语音生成技术的发展。
LongCat团队提出了LongCat-Next模型,旨在统一处理图像、语音和文本等多模态信号。该模型通过离散Token实现理解与生成的协同,打破模态间的隔阂,表现出色。模型及其分词器已开源,期待推动多模态智能的发展。
LongCat团队推出了新AI模型LongCat-Next,旨在统一处理图像、声音和文本等多模态信息。通过离散原生自回归架构DiNA和视觉分词器dNaViT,该模型实现了不同模态的统一建模,增强了理解与生成的协同能力。研究表明,离散化能更好地理解物理世界,且不损失信息。该模型已开源,欢迎开发者参与。
OpenClaw 是一个开源的个人 AI 助手,能够将大语言模型的推理能力转化为实际操作。由于部分平台收紧对非官方入口的访问,账号安全风险增加。LongCat 团队提供了稳定的官方 API,帮助开发者构建自动化工作流。LongCat-Flash-Thinking-2601 在执行效率和任务完成质量上表现优异,能够快速响应复杂任务,提升开发者的工作效率。
美团LongCat团队推出了开源模型LongCat-Flash-Thinking-2601,拥有5600亿参数,旨在解决智能体在复杂环境中的适应性问题。该模型通过环境扩展、强化学习和噪声训练,在多领域任务中表现出色,显著提升了泛化能力和决策稳定性。
美团LongCat团队发布了LongCat-Flash-Thinking-2601模型,具备卓越的智能体搜索和工具调用能力,支持重思考模式,提升决策质量。该模型在编程和数学推理等评测中表现优异,已开源并可在线体验,旨在降低开发者使用门槛。
美团龙猫LongCat推出新稀疏注意力机制LoZA,解码速度提升10倍,支持处理1M长文本。通过优化模型结构,降低计算复杂度,提高效率,同时保持稳定性能。该技术在长文本任务中优于同类模型,未来将支持动态稀疏比例,以适应不同场景需求。
美团开源的LongCat-Video-Avatar模型在虚拟人视频生成方面取得显著进展,支持多任务生成,提升了动作拟真度和长视频稳定性,解决了身份一致性问题,广泛应用于影视和教育等领域。
美团开源的LongCat-Video-Avatar模型在虚拟人视频生成方面取得显著进展,支持多任务生成,提升了动作拟真度和长视频稳定性,解决了身份一致性问题,广泛应用于影视娱乐等领域。
美团推出的LongCat AI生图功能基于LongCat-Image模型,能够快速生成高质量图像并支持自然语言编辑,尤其擅长处理生僻字,已在LongCat APP和网站上线,旨在为用户提供高效的创作工具。
美团 LongCat 团队发布了开源的 LongCat-Image 模型,旨在解决 AI 图像生成技术的开源与闭源问题。该模型拥有6B参数,兼具文生图和图像编辑能力,提升了指令遵循、图像质量和中文文字生成能力。在多个基准测试中表现优异,支持海报设计等应用,推动技术普惠与商业创作。
美团 LongCat 团队发布了开源的 LongCat-Image 模型,解决了 AI 图像生成技术的开源与闭源问题。该模型在图像编辑和中文文字生成方面表现优异,具有高性能和低门槛,支持多种商业应用,推动技术普惠。
大型推理模型(LRMs)在长链推理能力上面临挑战,现有评测体系无法有效评估其复杂任务表现。复旦大学与美团推出的R-HORIZON框架通过问题组合方法提升了模型的多步推理能力。评测显示,主流模型在长链推理中性能普遍下降,存在推理长度、反思机制和预算分配等瓶颈。通过强化学习训练,R-HORIZON显著提升了模型推理性能,标志着研究范式的转变。
美团LongCat团队推出AMO-Bench,包含50道高难度原创数学推理题,旨在提升大模型的推理能力。目前顶尖模型在该评测中的表现仍未及格,显示出其在复杂推理任务上的局限性。AMO-Bench为行业提供了新的评测标准,未来将持续更新。
美团开源的LongCat-Video视频生成模型通过统一架构处理多种视频生成任务,具备长视频生成能力和高效推理,在文生视频和图生视频任务中表现优异,标志着世界模型构建的重要进展。
在本地生活服务领域,大模型技术面临适配难、服务可靠性与个性化矛盾及高数据成本等问题。美团的WOWService系统通过数据与知识双驱动、自我优化训练和多Agent协同等技术,提升了服务质量和用户体验,显著降低了训练成本,推动了智能服务的升级。
多模态人工智能正向全模态大模型发展,但评测体系滞后。美团LongCat团队提出UNO-Bench,提供高质量评测基准,有效评估模型的单模态与全模态能力,揭示“组合定律”,推动AI行业发展。
美团LongCat团队开源了LongCat-Audio-Codec,解决了语音大语言模型在Token化中的难题。该方案通过双Token并行提取、低延迟解码和超低比特率高保真设计,实现了高效音频处理,提升了语音理解与生成质量,降低了技术门槛,丰富了应用场景,推动了语音智能系统的发展。
美团推出了LongCat-Flash-Omni模型,参数达到5600亿,支持低延迟音视频交互,表现优异。该模型在多模态任务中实现了开源最先进水平,具备强大的文本、图像、音频和视频理解能力,有效解决了推理延迟问题。
美团发布了LongCat-Flash-Omni模型,参数达到5600亿,支持低延迟音视频交互,表现优异,解决了推理延迟问题,适用于多种应用场景。
完成下面两步后,将自动完成登录并继续当前操作。