小红花·文摘

本研究提出了首个全面的知识产权任务分类法和双语基准测试IPBench，涵盖8种IP机制和20项任务。评估了16个大型语言模型，最佳准确率仅为75.8%，显示该领域仍有改进空间。

BriefGPT - AI 论文速递 ·

该论文介绍了RoleEval，一个旨在评估角色知识的双语基准测试。通过对多个大型语言模型在不同设置下的评估，发现GPT-4在全球角色评估上表现出色，中文语言模型在中文角色评估上表现优异。该研究凸显了知识分布差异的重要性，并期望RoleEval能够在各种语言和文化背景下评估基础模型的角色知识。

BriefGPT - AI 论文速递 ·