量子位 ·

商汤“夺金”SuperCLUE-V多模态大模型基准10月榜单

💡 原文中文，约1300字，阅读约需3分钟。

📝

内容提要

商汤科技的SenseChat-Vision 5.5在SuperCLUE-V多模态大模型榜单中表现出色，特别是在数理逻辑推理能力上排名第一。该模型总分73.56分，超过了包括GPT-4o在内的其他模型。商汤科技通过创新使用合成高阶思维链数据提升推理能力，并计划继续研发先进技术。

🎯

🔎

商汤科技的SenseChat-Vision 5.5在数理逻辑推理方面的突出表现，反映了推理能力在多模态大模型中的核心地位。随着AI技术的发展，推理能力将成为模型竞争的关键因素，企业在选择大模型时应关注其推理能力的评估结果。

商汤科技通过合成高阶思维链数据来提升模型的推理能力，这一创新方法可能为其他AI企业提供借鉴。合成数据的使用不仅能加速模型训练，还能在特定任务上显著提高性能，值得关注其在实际应用中的效果。

SuperCLUE-V的细粒度评估方式为多模态大模型提供了全面的能力分析，涵盖多个维度。这种评估方法能够帮助开发者更清晰地了解模型的强项与弱点，从而在模型优化和应用选择上做出更明智的决策。

❓

SenseChat-Vision 5.5在SuperCLUE-V榜单中表现出色，总分73.56分，排名第一。

该模型在数理逻辑推理能力方面表现突出，尤其是在图表推理和场景推理任务上。

SuperCLUE-V评估涵盖了11个多模态理解大模型，聚焦基础能力和应用能力。

商汤科技通过创新使用合成高阶思维链数据来提升推理能力。

三层架构理论包括知识、推理和执行三个层次，强调推理能力的重要性。

商汤科技将继续坚持基础大模型的研发与投入，探索最先进的大模型技术。

🏷️