1. 自然语言处理NLP-数据预处理_nlp数据处理

作者：菜鸟追梦旅行 | 2024-04-01 20:28:52

踩

nlp数据处理

NLP任务预处理的流程包括： 收集语料库、文本清洗、分词、去掉停用词、标准化和特征提取等。

（1）收集语料库

（2）清洗数据

eg：删除所有不相关的字符，例如非字母数字字母

（3）分词

英文：词性还原（does转为do）；词干提取（cities转为city）

中文：粒度（中国科学技术大学、中国\科学技术\大学）

中文难度更高，没有统一的标准、歧义词难以区分、新词难以识别

常见的分词器都是使用机器学习算法和词典相结合，一方面能够提高分词准确率，另一方面能够改善领域适应性。其中典型的代表就是jieba分词，一个热门的多语言中文分词包。

（4）标准化

标准化是为了给后续的处理提供一些必要的基础数据，包括：去掉停用词、二次采样、词汇表等等。

去掉停用词：删除and 、is、a等词的过程。

二次采样：每个词有一定概率会被丢弃，越高频的词被丢弃的概率越大（eg：the、a、in）

词汇表：是为语料库建立一个所有不重复词的列表，每个词对应一个索引值，并索引值不可以改变。

（5）特征提取

将原始数据提取为具体特征（已被整理可直接使用），主要是两种：统计和embedding。

（1）将词转化为一个向量，eg:One-Hot编码。但是由于非常稀疏，且缺少语义信息，所以才有word2vec

比如：我、爱、自然、语言、处理

转化为：

我： [1, 0, 0, 0, 0]

爱： [0, 1, 0, 0, 0]

自然：[0, 0, 1, 0, 0]

语言：[0, 0, 0, 1, 0]

处理：[0, 0, 0, 0, 1]

（2）提取中心词和背景词。在word2vec中使用。

在整数1和max_window_size(最大背景窗口)之间随机均匀采样一个整数作为背景窗口大小。

（6）负采样或softmax来近似训练。在word2vec中使用。

降低生成给定词汇条件概率的复杂程度。

（7）读取数据集

随机小批量进行读取（从数据集中提取所有中心词，以及每个中心词对应的背景词和噪声词）

动手学深度学习李沐

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/350022