小红花·文摘

马斯克的xAI推出了Grok-1.5V多模态模型，能处理文本、文档、图表、截图和照片，并在物理世界理解方面表现优秀。Grok-1.5V与其他模型进行了测试对比，并展示了七个示例，包括流程图转换为Python代码、计算卡路里、睡前故事等。xAI还推出了RealWorldQA基准测试，用于评估多模态模型的真实世界空间理解能力。微软推出了MEGAVERSE基准测试，Meta开源了OpenEQA基准数据集。预计2024年大模型在现实世界任务上取得更多进展。