INDIC QA BENCHMARK:评估印度语系大语言模型问答能力的多语言基准
原文中文,约500字,阅读约需1分钟。发表于: 。为了评估大型语言模型(LLMs)在非英语语言的上下文问题回答能力,我们引入了 Indic-QA,这是来自两种语言家族的 11 种主要印度语言的最大公开上下文问题回答数据集。该数据集包括抽取式和抽象式问题回答任务,其中既包括现有数据集,也包括翻译成印度语言的英语问题回答数据集。此外,我们使用 Gemini 模型生成了一个合成数据集,用于创建给定段落的问题 -...
TeleQnA是一个用于评估大型语言模型在电信领域知识的数据集。研究结果显示GPT-3.5和GPT-4等模型在处理复杂问题方面存在困难,但在解答一般的电信问题时表现出了出色的能力。将电信知识背景纳入模型可以显著提高性能,LLMs在电信知识方面可以与专业人士的表现相媲美,展示了LLMs在该领域的潜力。该数据集已在GitHub上公开获取。