谷歌发布LMEval，一个开源的跨提供商大型语言模型评估工具

LMEval aims to help AI researchers and developers compare the performance of different large language models. Designed to be accurate, multimodal, and easy to use, LMEval has already been used to...

LMEval是一个用于比较大型语言模型性能的工具，支持多种模型和多模态评估。它通过LiteLLM框架实现跨提供商兼容，优化评估效率，并使用Python编写。LMEval还提供可视化仪表板，帮助分析模型表现，评估模型的安全性和准确性。

LMEval Python 可视化大型语言模型开源评估谷歌