当前位置:   article > 正文

tokenizer简介

tokenizer

原文链接:https://huggingface.co/docs/transformers/master/en/tokenizer_summary

1、前言

众所周知,在NLP任务中,原始文本需要处理成数值型字符才能够被计算机处理,我们熟悉的one-hot编码就是一种转换方式。但这种方式有两个弊端:向量维度太高,且丢失了语义信息。后来人们发明了词向量(或称之为词嵌入,word embedding),它在一定程度了解决了one-hot的上述两个问题。

从「词向量」这个名字上就可以看出,其基本单元是词。因此,要想得到词向量,首先要对句子进行分词,所以,我们需要一个分词工具,简称之为“分词器”。在现代自然语言中,分词器的作用不再是仅仅将句子分成单词,更进一步的,它还需要将单词转化成一个唯一的编码,以便下一步在词向量矩阵中查找其对应的词向量。本文主要介绍一下现代NLP是如何将句子切分为词的。

在中文里,一般将tokenizer直接译为“分词器”,但正如上文所述,这其实只翻译出了其第一层含义。因此,我认为将其翻译为“符化器”——将句子分词并转化为唯一编码——更能体现其作用。本文不对该单词进行翻译。

2、引例

分词的任务看似简单,实际上却大有文章。首先,给一个例句:Don’t you love 声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】

推荐阅读
相关标签