王兴一鸣惊人!美团首个开源大模型追平DeepSeek-V3.1

💡 原文中文,约4400字,阅读约需11分钟。
📝

内容提要

美团推出的开源大模型Longcat-Flash-Chat在多个基准测试中表现优异,超越DeepSeek-V3.1,展现出强大的编程和复杂任务处理能力,标志着美团在AI领域的重要进展。

🎯

关键要点

  • 美团推出的开源大模型Longcat-Flash-Chat在多个基准测试中表现优异,超越DeepSeek-V3.1。
  • Longcat-Flash-Chat在编程能力上与Claude4 Sonnet相当,展现出强大的复杂任务处理能力。
  • 技术报告详细介绍了美团对大模型的理解,包括DSMoE、MLA、动态计算等新技术。
  • Longcat-Flash-Chat采用560B的MoE模型,使用零计算专家和Shortcut-connected MoE架构,提升了计算效率。
  • 模型在训练和推理阶段实现了高吞吐量,训练期间可用率达到98.48%。
  • Longcat在数学题和复杂任务中表现出色,能够正确解答并生成SVG图示。
  • 美团的AI战略布局包括提升员工工作效率、改造现有产品和自研大模型。
  • 美团在AI研发上的投入逐年增加,2024年投入211亿,显示出其在AI领域的决心。
  • 美团的AI布局以业务场景驱动为核心,注重实际应用效果,逐步从外卖公司转型为科技公司。
➡️

继续阅读