gpt2 tokenizer源码解析

📝

内容提要

上一篇文章中,分析了bert的tokenizer的细节,本篇继续分析gpt2的tokenizer的细节。 bpe的基本原理可以参考这篇文章:https://huggingface.co/course/chapter6/5?fw=pt 该tokenizer整体调用入口是encode方法。 """Byte pair encoding utilities""" import...

🏷️

标签

➡️

继续阅读