学术出版物基于内容的新颖度衡量方法:概念验证

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究使用自信息的倒数来衡量专利权要求的范围。通过考虑不同的语言模型,发现模型越复杂,结果越好。GPT2模型优于基于词和字符频率的模型。

🎯

关键要点

  • 本研究提出以专利权要求的自信息的倒数来衡量其范围。
  • 该方法基于信息理论,假设罕见概念比常见概念更具信息量。
  • 自信息是根据要求的出现概率计算的,概率由语言模型得出。
  • 研究考虑了五种语言模型,从简单到复杂,包括GPT2。
  • 最简单的模型将范围度量减少到词或字符计数的倒数。
  • 研究应用于九个系列的专利权要求,要求范围逐渐减小。
  • 评估语言模型性能的指标显示,模型越复杂,结果越好。
  • GPT2模型优于基于词和字符频率的模型。
➡️

继续阅读