DeepSeek R1与OpenAI模型文风相似度高达74.2%?新研究质疑DeepSeek训练数据

DeepSeek R1与OpenAI模型文风相似度高达74.2%?新研究质疑DeepSeek训练数据

💡 原文中文,约3100字,阅读约需8分钟。
📝

内容提要

一项研究表明,DeepSeek生成的文本与OpenAI模型的风格相似性达到74.2%。Copyleaks开发的集成系统能够准确识别不同AI模型的文本风格。这一相似性引发了对DeepSeek训练过程的质疑。

🎯

关键要点

  • DeepSeek生成的文本与OpenAI模型的风格相似性达到74.2%。
  • Copyleaks开发的集成系统能够准确识别不同AI模型的文本风格。
  • 每个AI模型都有独特的风格特征,DeepSeek的文风具有明显的特征。
  • Copyleaks的集成系统由三个分类器组成,经过训练可以对四大语言模型生成的文本进行分类。
  • 集成系统在测试中表现出极高的精确度和低假阳性率。
  • 对于DeepSeek生成的文本,74.2%被识别为OpenAI生成,25.7%标记为无共识。
  • Copyleaks认为DeepSeek与OpenAI之间的相似性引发了对DeepSeek训练过程的质疑。
  • 可能的原因包括使用了OpenAI模型的输出作为训练数据。
  • Copyleaks的检测方法使用了多种标准来评估分类器的准确性。
  • 一致同意制的投票方法被证明比多数投票制更可靠。
➡️

继续阅读