当前位置:   article > 正文

bert之tokenizer 详解_bert的tokenizer

bert的tokenizer

tokenizer基本含义
tokenizer就是分词器; 只不过在bert里和我们理解的中文分词不太一样,主要不是分词方法的问题,bert里基本都是最大匹配方法。

最大的不同在于“词”的理解和定义。 比如:中文基本是字为单位。
英文则是subword的概念,例如将"unwanted"分解成[“un”, “##want”, “##ed”] 请仔细理解这个做法的优点。
这是tokenizer的一个要义。

bert里涉及的tokenizer
BasicTokenzer
主要的类是BasicTokenizer,做一些基础的大小写、unicode转换、标点符号分割、小写转换、中文字符分割、去除重音符号等操作,最后返回的是关于词的数组(中文是字的数组)
 

  1. def tokenize(self, text):
  2. """Tokenizes a piece of text."""
  3. text = convert_to_unicode(text)
  4. text = self._clean_text(text)
  5. # This was added on November 1st, 2018 for the multilingual and Chinese
  6. # models. This is also applied to the English models now, but it doesn't
  7. # matter since the English models were not trained on any Chinese data
  8. # and generally don't have any Chinese data in them (there are Chinese
  9. # characters in the vocabulary because Wikipedia
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/607542
推荐阅读
相关标签
  

闽ICP备14008679号