小红花·文摘

本文探讨了大型语言模型在识别个人身份信息（PII）方面的可靠性，尤其是在处理模糊人名时的系统性失误。通过AMBENCH数据集评估模型能力，实验结果显示模糊人名的识别率显著低于易识别人名，强调依赖大型语言模型保护用户隐私的风险。