tokenizer简介

作者：花生_TL007 | 2024-03-16 12:23:28

踩

tokenizer

原文链接：https://huggingface.co/docs/transformers/master/en/tokenizer_summary

1、前言

众所周知，在NLP任务中，原始文本需要处理成数值型字符才能够被计算机处理，我们熟悉的one-hot编码就是一种转换方式。但这种方式有两个弊端：向量维度太高，且丢失了语义信息。后来人们发明了词向量（或称之为词嵌入，word embedding），它在一定程度了解决了one-hot的上述两个问题。

从「词向量」这个名字上就可以看出，其基本单元是词。因此，要想得到词向量，首先要对句子进行分词，所以，我们需要一个分词工具，简称之为“分词器”。在现代自然语言中，分词器的作用不再是仅仅将句子分成单词，更进一步的，它还需要将单词转化成一个唯一的编码，以便下一步在词向量矩阵中查找其对应的词向量。本文主要介绍一下现代NLP是如何将句子切分为词的。

在中文里，一般将tokenizer直接译为“分词器”，但正如上文所述，这其实只翻译出了其第一层含义。因此，我认为将其翻译为“符化器”——将句子分词并转化为唯一编码——更能体现其作用。本文不对该单词进行翻译。

2、引例

分词的任务看似简单，实际上却大有文章。首先，给一个例句：Don’t you love

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/花生_TL007/article/detail/249448

推荐阅读

相关标签