CORECODE: 一个带有基准任务的常识注释对话数据集,用于中文大型语言模型
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
介绍了CORECODE数据集,用于评估中文大型语言模型的常识推理和冲突检测能力。研究使用众包方式收集了76,787个常识知识注释,并通过对话级推理和检测任务验证模型在该数据集上的能力。结果显示现有的开源中文大型语言模型在预测推理内容方面表现不佳。
🎯
关键要点
- CORECODE是一个用于评估中文大型语言模型的常识推理和冲突检测能力的数据集。
- 该数据集通过众包方式收集了76,787个常识知识注释。
- 研究通过对话级推理和检测任务验证模型在CORECODE数据集上的能力。
- 结果显示现有的开源中文大型语言模型在预测推理内容方面表现不佳。
➡️