机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。
该研究提出了PHYBench,一个评估大型语言模型在物理推理能力的新基准工具。通过设计500个基于现实物理场景的问题,研究发现现有模型在复杂物理推理方面明显不如人类专家,强调了改进模型的必要性。
该文章介绍了一个新的任务和基准,用于评估文本到图像生成模型在现实生活中产生符合常识的图像的能力。作者评测了各种最先进的模型,并发现图像合成与真实生活照片之间仍存在很大差距。作者的目标是将常识 - T2I 作为高质量评估基准,促进实际生活图像生成的进展。
完成下面两步后,将自动完成登录并继续当前操作。