学术出版物基于内容的新颖度衡量方法:概念验证
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本研究使用自信息的倒数来衡量专利权要求的范围。通过考虑不同的语言模型,发现模型越复杂,结果越好。GPT2模型优于基于词和字符频率的模型。
🎯
关键要点
- 本研究提出以专利权要求的自信息的倒数来衡量其范围。
- 该方法基于信息理论,假设罕见概念比常见概念更具信息量。
- 自信息是根据要求的出现概率计算的,概率由语言模型得出。
- 研究考虑了五种语言模型,从简单到复杂,包括GPT2。
- 最简单的模型将范围度量减少到词或字符计数的倒数。
- 研究应用于九个系列的专利权要求,要求范围逐渐减小。
- 评估语言模型性能的指标显示,模型越复杂,结果越好。
- GPT2模型优于基于词和字符频率的模型。
➡️