小红花·文摘

本研究提出了首个全面的知识产权任务分类法和双语基准测试IPBench，涵盖8种IP机制和20项任务。评估了16个大型语言模型，最佳准确率仅为75.8%，显示该领域仍有改进空间。