机器之心 ·

DeepSeek R1与OpenAI模型文风相似度高达74.2%？新研究质疑DeepSeek训练数据

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

一项研究表明，DeepSeek生成的文本与OpenAI模型的风格相似性达到74.2%。Copyleaks开发的集成系统能够准确识别不同AI模型的文本风格。这一相似性引发了对DeepSeek训练过程的质疑。

🎯

🔎

研究指出，DeepSeek生成的文本与OpenAI模型的相似性高达74.2%，这引发了对其训练数据的质疑。可能的原因是DeepSeek在训练过程中使用了OpenAI模型的输出，导致风格上的高度重合。这一问题值得关注，因为它可能影响DeepSeek的原创性和市场竞争力。

Copyleaks开发的集成系统通过三个分类器对文本进行风格识别，精确度高达99.88%。这种方法的可靠性在于采用了一致同意制，降低了误判的概率。这一技术的成功应用为AI文本生成的风格分析提供了新的思路，可能对未来的AI模型评估产生深远影响。

随着AI模型的不断发展，风格趋同的现象可能会加剧，尤其是在使用重叠数据集进行训练的情况下。这种趋势可能导致不同模型之间的风格差异减小，从而影响用户对各个模型的选择和信任。因此，开发者需关注模型的独特性，以维持市场竞争力。

❓

DeepSeek生成的文本与OpenAI模型的风格相似性达到74.2%。

Copyleaks的集成系统由三个分类器组成，经过训练可以对四大语言模型生成的文本进行分类，只有当所有分类器一致同意时，预测才被认为有效。

DeepSeek的训练过程受到质疑是因为其生成的文本与OpenAI模型有显著相似性，可能使用了OpenAI模型的输出作为训练数据。

Copyleaks的检测系统在测试中表现出极高的精确度（0.9988）和低假阳性率（0.0004）。

在DeepSeek生成的文本中，25.7%被标记为无共识。

DeepSeek的文风被认为有独特特征，因为其文本中意象丰富，常使用通感、隐喻和互文，使其风格明显可识别。

🏷️