量子位 ·

国产模型指令跟随全球第一！来自LeCun亲推的「最难作弊」大模型新榜单

💡 原文中文，约3900字，阅读约需10分钟。

📝

内容提要

国内初创公司阶跃星辰的Step-2大模型在LeCun推出的LiveBench榜单中获得全球第一和国产第一，展现出其在指令跟随和语言生成方面的强大能力。该模型采用自主研发的MoE架构，参数量达到万亿级，体现了卓越的技术实力和创新潜力。

🎯

🔎

阶跃星辰的Step-2大模型采用自主研发的MoE架构，参数量达到万亿级，显示出其在技术创新方面的实力。与其他模型相比，Step-2选择从头开始训练，突破了多项关键技术，确保了高效的训练过程。这种自主研发的模式不仅提升了模型的性能，也为国内大模型的发展树立了标杆。

LiveBench榜单由图灵奖得主杨立昆推出，旨在提供一个无法作弊的评估平台。该榜单强调公平性和客观性，确保评估结果的真实性。Step-2在指令跟随任务中获得全球第一，表明其在语言生成和理解能力方面的突出表现，这为国内大模型的国际竞争力提供了有力支持。

阶跃星辰不仅专注于语言模型的开发，还在多模态模型方面取得了显著进展。Step-1.5V在感知、推理和视频理解等领域表现突出，显示出其在多模态理解和生成方面的潜力。随着技术的不断迭代，阶跃星辰的目标是实现AGI，这将为未来的AI应用开辟新的可能性。

❓

Step-2在LiveBench榜单中获得全球第一和国产第一，指令跟随任务得分为86.57分。

Step-2采用了自主研发的MoE架构，参数量达到万亿级。

LiveBench是全球首个无法作弊的LLM基准测试，由杨立昆推出，旨在确保评估的公平性和准确性。

阶跃星辰的目标是开发出能够实现AGI的多模态大模型。

Step-2在语言生成上对细节有强控制力，能够精准理解和遵循人类指令。

Step-1.5V在感知、推理和视频理解方面表现突出，能够处理复杂图表和视频内容。

🏷️