LLMeBench:一款加速 LLM 基准测试的灵活框架
原文约500字/词,阅读约需1分钟。发表于: 。近期大型语言模型(LLMs)的发展和成功需要对其在不同语言的各种 NLP 任务中的性能进行评估。本研究介绍了 LLMeBench 框架,该框架最初是为了使用 OpenAI 的 GPT 和 BLOOM 模型评估阿拉伯语 NLP 任务而开发的,但它可以轻松地定制任何 NLP 任务和模型,无论语言如何。该框架还具有零样本学习和少样本学习的设置。用户可以在不到 10...
LLMeBench框架用于评估大型语言模型在不同语言的NLP任务中的性能,支持零样本学习和少样本学习设置。用户可以轻松定制任务和模型,并使用自己的模型API密钥进行评估。该框架已在31个NLP任务中测试,涉及53个数据集和约296K个数据点的90个实验设置。计划将该框架开源。