CT-Eval: 大型语言模型中中国文本到表格性能的基准评估
原文中文,约300字,阅读约需1分钟。发表于: 。通过构建一个中文文本到表格的数据集 CT-Eval,并利用该数据集评估开源和闭源的大型语言模型 (包括 GPT-4) 的性能,研究结果显示零翻译大型语言模型仍然与人类判断存在明显的性能差距,但经过微调后,开源的大型语言模型的文本到表格能力可以显著提高,超过了 GPT-4 很大的程度。这表明 CT-Eval...
研究构建CT-Eval数据集评估大型语言模型性能,结果显示零翻译模型与人类判断存在性能差距,但经过微调后,开源模型的文本到表格能力显著提高,超过了GPT-4。CT-Eval可评估和了解现有模型的中文文本到表格能力,提升大型语言模型性能。