机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。
该研究提出了PHYBench,一个评估大型语言模型在物理推理能力的新基准工具。通过设计500个基于现实物理场景的问题,研究发现现有模型在复杂物理推理方面明显不如人类专家,强调了改进模型的必要性。
本文提出了常识-T2I基准,用于评估文本到图像生成模型的常识推理能力。研究发现,现有模型(如DALL-E 3和稳定扩散XL)在生成符合常识的图像方面存在显著不足,准确率分别为48.92%和24.92%。此外,研究还揭示了视频生成模型在模拟物理世界方面的局限性,并提出了新的评估基准和方法,以推动文本到图像生成的进展。
完成下面两步后,将自动完成登录并继续当前操作。