CORECODE: 一个带有基准任务的常识注释对话数据集,用于中文大型语言模型
原文中文,约300字,阅读约需1分钟。发表于: 。CORECODE 是一个包含丰富常识知识的中文大型语言模型的数据集,用于评估中文大型语言模型的常识推理和冲突检测能力。研究使用众包方式收集了 76,787 个常识知识注释,并通过对话级推理和检测任务验证模型在该数据集上的能力,结果表明现有的开源中文大型语言模型在预测丰富的推理内容方面表现不佳。
介绍了CORECODE数据集,用于评估中文大型语言模型的常识推理和冲突检测能力。研究使用众包方式收集了76,787个常识知识注释,并通过对话级推理和检测任务验证模型在该数据集上的能力。结果显示现有的开源中文大型语言模型在预测推理内容方面表现不佳。