赞
踩
这是一个系列文章的第三篇文章, 文章前半部分分别是:
1 、NLP 的文本预处理技术
2、NLP文本预处理技术:词干提取和词形还原
在本文中,我们将介绍标记化主题。在开始之前,我建议您阅读我之前介绍的关于文本预处理的 2 篇文章。
在处理文本数据时,标记化是最常见的任务之一。它是将句子或文本分解为单个单词或子单词(称为标记)的过程。
每个标记(单词、短语或符号)代表一个有意义的单元,它在理解文本的结构和含义方面起着至关重要的作用。