评估经济研究论文标题的去重技术,侧重于使用NLP和LLM的语义相似性

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究利用多种配对方法和距离度量(如Levenshtein距离、余弦相似度)及sBERT模型,探讨经济研究论文标题的大型NLP数据集去重技术,结果显示重复率较低,为未来研究提供参考。

🎯

关键要点

  • 本研究针对经济研究论文标题的大型NLP数据集,探讨高效的去重技术。

  • 研究解决了现有方法在相似度评估中的不足。

  • 采用多种配对方法及距离度量,如Levenshtein距离和余弦相似度。

  • 使用sBERT模型进行语义评价。

  • 结果显示不同方法下观察到重复内容的潜在较低出现率。

  • 为今后的研究提供了重要参考和启示。

🏷️

标签

➡️

继续阅读