评估经济研究论文标题的去重技术,侧重于使用NLP和LLM的语义相似性
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究利用多种配对方法和距离度量(如Levenshtein距离、余弦相似度)及sBERT模型,探讨经济研究论文标题的大型NLP数据集去重技术,结果显示重复率较低,为未来研究提供参考。
🎯
关键要点
-
本研究针对经济研究论文标题的大型NLP数据集,探讨高效的去重技术。
-
研究解决了现有方法在相似度评估中的不足。
-
采用多种配对方法及距离度量,如Levenshtein距离和余弦相似度。
-
使用sBERT模型进行语义评价。
-
结果显示不同方法下观察到重复内容的潜在较低出现率。
-
为今后的研究提供了重要参考和启示。
🏷️