小红花·文摘

机器之心 ·

SuperCLUE-VLM榜单显示，百度ERNIE-4.5-Turbo-VL以66.47分并列国内第一，Gemini-2.5-Pro以74.99分领先，评测涵盖15款多模态模型，彰显中国在该领域的竞争力。

量子位 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

机器之心 ·

商汤科技的SenseChat-Vision 5.5在SuperCLUE-V多模态大模型榜单中表现出色，特别是在数理逻辑推理能力上排名第一。该模型总分73.56分，超过了包括GPT-4o在内的其他模型。商汤科技通过创新使用合成高阶思维链数据提升推理能力，并计划继续研发先进技术。

量子位 ·

介绍了SC-Math6基准数据集，用于评估中文语言模型的数学推理能力。数据集包含2000多个多步推理的数学问题和自然语言解决方案。实验结果显示，GPT-4等顶级模型在推理能力上表现出优异性能。SC-Math6填补了中文数学推理基准的空白，提供了全面的测试平台。

BriefGPT - AI 论文速递 ·