机器之心 ·

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

💡 原文中文，约4800字，阅读约需12分钟。

📝

内容提要

AIxiv专栏促进学术交流，已发布2000多篇文章。淘天集团的未来生活实验室推出Chinese SimpleQA评测集，专注于中文模型的事实正确性，涵盖99个主题，经过严格质量控制，评估多种模型的表现，推动中文AI的发展。

🎯

🔎

Chinese SimpleQA 数据集的构建分为自动化构建和质量控制两个阶段，确保数据质量高标准。自动化构建包括知识提取、问答对生成和质量验证，而质量控制则通过人工审核和多轮验证来确保每条数据的准确性。这种严谨的流程为评测模型的事实正确性提供了可靠的基础。

评测结果显示，不同模型在 Chinese SimpleQA 上的表现差异显著。大型模型通常表现更好，而小型模型在回答准确率上存在明显不足。此外，中文社区的模型在中国文化主题上表现优于其他主题，反映出模型在特定领域的知识掌握情况。

大多数模型在对齐训练后表现下降，尤其是 Baichuan2 系列，显示出对齐训练在减少幻觉方面的不足。这一现象强调了评测集的重要性，帮助研究者识别模型的潜在问题，并推动模型的改进与优化。

❓

Chinese SimpleQA评测集专注于中文模型的事实正确性，涵盖99个主题，经过严格质量控制，具有中文、全面性、高质量、静态、易于评估和有难度等特点。

评测结果显示大部分模型在事实正确性上表现不佳，尤其是GPT-4o mini、ChatGLM3-6B和Qwen2.5-1.5B等模型的准确率较低。

Chinese SimpleQA的构建分为自动化构建和质量控制两个阶段，自动化构建包括知识内容提取、问答对生成、质量验证等步骤，质量控制则引入严格的人工验证流程。

评测集的评测指标遵循OpenAI的标准，主要包括回答正确率、未回答率、回答错误率和回答精确率等。

RAG策略显著提升了模型的事实正确性，所有模型在配置RAG后准确性都显著提高，缩小了模型之间的性能差距。

Chinese SimpleQA评测集可帮助研究者识别适合特定需求的模型，促进中文AI的发展，并为算法研究提供重要基石。

🏷️