自然语言处理（NLP）神经网络的数据预处理步骤

作者：Gausst松鼠会 | 2024-05-28 12:04:40

踩

目的：去除文本中的噪音和无关内容，确保输入数据的质量和一致性。

方法：

目的：将文本划分为单词或子词单位（tokens），这些单位是模型的基本输入。

方法：

单词级标记化：将文本分割成单词，如“Natural language processing”变成[“Natural”, “language”, “processing”]。
子词标记化：使用BPE（Byte Pair Encoding）或WordPiece等算法，将单词进一步分解成更小的单元，处理未见过的单词更灵活。

目的：创建一个词汇表，将所有标记化后的单位映射到唯一的索引。

方法：

目的：将离散的词汇转换为连续的向量表示，捕捉词汇间的语义关系。

方法：

目的：确保所有输入序列长度一致，便于批量处理。

方法：

目的：在处理可变长度输入时，忽略填充部分，确保模型只关注有效部分。

方法：创建一个与输入序列长度相同的掩码，填充部分为0，有效部分为1，指导模型计算注意力权重时忽略填充部分。

目的：将单词还原到其基本形式，减少词形变化的影响。

方法：

目的：在处理细粒度任务（如拼写纠错、生成任务）时，直接处理字符级别的信息。

方法：将文本分割成单个字符，构建字符级词汇表，并生成字符序列。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/637498