本研究提出了ClimateBench-M,旨在解决气候科学中缺乏统一多模态基准的问题。该基准整合了时间序列气候数据、极端天气事件数据和卫星图像数据。研究中的生成方法在天气预测、雷暴预警和作物分割任务中表现出色,为气候科学的人工智能发展提供了新思路。
本文提出了MME-Finance,一个针对金融领域的双语开放式视觉问答基准,旨在解决现有多模态基准无法有效评估金融模型性能的问题。研究表明,金融任务中一些优秀模型在该基准上的表现不佳,强调了金融领域需要特定评估标准。
本文介绍了“感知测试”,这是一个基于真实视频的多模态基准,用于评估人工智能模型的感知能力。该基准设计了37个视频脚本,涵盖空间和时间注释,旨在解决现有基准的局限性,促进对模型的全面评估,推动人工智能的研究与发展。
完成下面两步后,将自动完成登录并继续当前操作。