利用TF-IDF和BERT嵌入的加权集成提升马拉地语的抄袭检测

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种结合TF-IDF特征与BERT句子嵌入的加权投票方法,以提高马拉地语文本的抄袭检测准确性,展现出良好的应用潜力。

🎯

关键要点

  • 本研究针对低资源语言抄袭检测系统的不足。
  • 提出了一种结合TF-IDF特征表示和BERT句子嵌入的加权投票集成方法。
  • 该方法旨在提高马拉地语文本的抄袭检测准确性。
  • 研究显示,该方法能够有效捕捉文本特征的统计、语义和句法方面。
  • 该方法具有良好的实际应用潜力。
➡️

继续阅读