赞
踩
NLP任务中最重要的一个环节就是分词。分词器(Tokenizer)在整个任务流程中扮演的角色如下
即给定一段文本,分词器会将其分割成一个个token,这些token会根据vocab转化成对应的ID以作为模型的输入。
完整的分词流程包含以下四个步骤
é
变成 e
),将所有字母全部转化成小写字母(E
变成 e
)等。这一步可以理解为数据清洗;[CLS]
和 [SEP]
。分词的粒度主要有三种:word-level、char-level和subword-level,对于前两种粒度,则不需要经历第三阶段(模型阶段)。
本文将主要聚焦于第三阶段,但在此之前,先让我们回顾一下word-level和char-level分词。
word-level分词的一个直观出发点是基于空格分词,即对字符串调用 split()
方法
text = "Don't you love 声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/615607
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。