本文探讨了文本嵌入模型中的名称偏见,揭示名称对主题相似性评估的影响。提出了一种文本匿名化方法,能够有效去除名称而保留核心主题,从而显著提升自然语言处理任务的性能。
本研究提出一个综合平台,旨在解决印度地区语言在自然语言处理中的不足,提供文本匿名化、摘要和拼写检查等功能,支持英语、印地语和马拉地语,具有重要的实用价值。
本文介绍了一种基于Python的轻量级文本匿名化方法,利用GLiNER识别敏感实体,使用Faker生成假名,并通过rapidfuzz进行模糊匹配。该方法适用于非关键场景,如评论分析或聊天机器人查询,确保数据不被保存。
最新研究发现,大型语言模型在推断在线文本中的个人数据方面已接近人类水平。现有的文本匿名化方法无法满足监管要求和对抗威胁。研究提出了一个新的环境来评估匿名化性能,并提出了基于大型语言模型的对抗性匿名化框架,结果优于目前的工业级匿名化工具。
最新研究发现,大型语言模型在推断真实世界在线文本中的个人数据方面已接近人类水平。现有的文本匿名化方法无法满足监管要求和对抗威胁。研究提出了一个新的环境来评估匿名化性能,并展示了基于大型语言模型的对抗性匿名化框架在实验中优于目前工业级匿名化工具的效果。
本研究使用真实Reddit个人资料构建数据集,证明了预训练语言模型(LLM)能够推断出个人隐私信息,包括地点、收入和性别等。研究还探讨了通过聊天机器人提取个人信息的新威胁,并证明了文本匿名化和模型对齐等缓解措施对保护用户隐私无效。
完成下面两步后,将自动完成登录并继续当前操作。