大型语言模型中的中文知识校正基准测试
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了大型语言模型在处理中文时存在的知识缺失和生成无意义信息的问题,尤其是在古诗、成语等领域。论文提出了一个新的中文数据集CKnowEdit,通过收集七类知识,帮助评估当前模型在中文处理中的挑战,并揭示了知识编辑技术在中文知识校正方面的改进潜力。
LHMKE是一种全面评估中文大型语言模型知识的基准,包括10,465个问题,涵盖30个学科的75个任务。通过零-shot评估,比较了11个中文大型语言模型在不同学科的性能。验证了GPT-4的自动评分主观预测能力。研究结果表明LHMKE是具有挑战性和先进性的评估标准。