本地可跑的隐私检测模型:Privacy Filter 低成本实现高质量 PII 过滤;硬核开源!涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

本地可跑的隐私检测模型:Privacy Filter 低成本实现高质量 PII 过滤;硬核开源!涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

💡 原文中文,约3200字,阅读约需8分钟。
📝

内容提要

Privacy Filter 是 OpenAI 开源的双向标记分类模型,专门用于检测和屏蔽文本中的个人身份信息。该模型基于小型预训练架构,采用高效的片段解码方式。

🎯

关键要点

  • Privacy Filter 是 OpenAI 开源的双向标记分类模型,专门用于检测和屏蔽文本中的个人身份信息(PII)。

  • 该模型基于小型预训练架构,采用高效的片段解码方式,摒弃了传统的逐词生成方式。

  • Privacy Filter 支持最长 128K token 上下文,并通过 33 个 BIOES token 级标签输出隐私片段边界。

  • 模型的总参数约为 1.5B,活跃参数约为 50M。

延伸问答

Privacy Filter 模型的主要功能是什么?

Privacy Filter 模型用于检测和屏蔽文本中的个人身份信息(PII)。

Privacy Filter 模型的架构特点是什么?

该模型基于小型预训练架构,采用高效的片段解码方式,摒弃了传统的逐词生成方式。

Privacy Filter 支持的上下文长度是多少?

Privacy Filter 支持最长 128K token 的上下文。

Privacy Filter 的参数规模是多少?

该模型的总参数约为 1.5B,活跃参数约为 50M。

如何使用 Privacy Filter 模型?

用户可以通过 HyperAI 超神经官网在线使用 Privacy Filter 模型。

Transfermarkt 足球数据集包含哪些信息?

Transfermarkt 数据集包含超过 80,000 场足球比赛、400 家俱乐部和 37,000 余名球员的信息。

➡️

继续阅读