小红花·文摘

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

北大物院200人合作，金牌得主超50人！PHYBench：大模型究竟能不能真的懂物理？

机器之心 ·

该研究提出了PHYBench，一个评估大型语言模型在物理推理能力的新基准工具。通过设计500个基于现实物理场景的问题，研究发现现有模型在复杂物理推理方面明显不如人类专家，强调了改进模型的必要性。

PHYBench: A Comprehensive Evaluation of Physical Perception and Reasoning in Large Language Models

BriefGPT - AI 论文速递 ·

本文提出了常识-T2I基准，用于评估文本到图像生成模型的常识推理能力。研究发现，现有模型（如DALL-E 3和稳定扩散XL）在生成符合常识的图像方面存在显著不足，准确率分别为48.92%和24.92%。此外，研究还揭示了视频生成模型在模拟物理世界方面的局限性，并提出了新的评估基准和方法，以推动文本到图像生成的进展。

PhyBench：用于评估文本到图像模型的物理常识基准

BriefGPT - AI 论文速递 ·