小红花·文摘

本研究提出了ClimateBench-M，旨在解决气候科学中缺乏统一多模态基准的问题。该基准整合了时间序列气候数据、极端天气事件数据和卫星图像数据。研究中的生成方法在天气预测、雷暴预警和作物分割任务中表现出色，为气候科学的人工智能发展提供了新思路。

BriefGPT - AI 论文速递 ·

本文提出了MME-Finance，一个针对金融领域的双语开放式视觉问答基准，旨在解决现有多模态基准无法有效评估金融模型性能的问题。研究表明，金融任务中一些优秀模型在该基准上的表现不佳，强调了金融领域需要特定评估标准。

BriefGPT - AI 论文速递 ·

本文介绍了“感知测试”，这是一个基于真实视频的多模态基准，用于评估人工智能模型的感知能力。该基准设计了37个视频脚本，涵盖空间和时间注释，旨在解决现有基准的局限性，促进对模型的全面评估，推动人工智能的研究与发展。

Google DeepMind Blog ·