BPE (Byte-Pair Encoding) Tokenization_bpe tokenization

作者：小惠珠哦 | 2024-08-09 11:33:28

踩

bpe tokenization

一、Tokenization 的概念

Tokenization 即将每个单词进行切分成小的单元。

我们其实也可以直接将每个单词作为一个单元来进行后续的训练，但是这样当我们处理新单词的时候就没有办法给出一个合适的表示，可能许多没有见过的所有的字都公用同一个表示。
在这里插入图片描述

然而，作为真人的我们第一次看到生词的时候，并不是对它一无所知的，我们可以通过生词的组成来进行猜测意思。
在这里插入图片描述
所以我们并不以单词作为一个 token，而是将单词进一步切分，即进行Tokenization。

Tokenization 可以通过多种方式来实现，BPE (Byte-Pair Encoding) 就是其中一种，这种方式比较简单而且非常流行，现在各式各样的预训练模型、基于 Transformer 模型等等都应用了 BPE 方法。

将单词进行切分，那切分到什么程度合适呢？如果切分单元为字母，这样不存在没有见过的字母，而且整个字母表容量也很小，但是这样一来多个字母形成的语义就难以被建模。

子词（Subword，parts of words）在单词与字母之间进行了折中，这种方式也是一个主流的方法。BPE 就是用了这样的方法来定义子词的词表，将一些常出现的连续的子词放到词表中。

假设我们的训练数据如下：
在这里插入图片描述

step 1：初始化词表
将训练语料库中的所有字符（包括单词结束符号）作为初始词汇表的元素。
step 2：统计词频
对于给定的文本数据集，统计每个字符对（两个连续字符的组合）的出现频率。
step 3：合并最频繁的字符对
从所有字符对中选择出现频率最高的一对。将选定的字符对视为一个单独的词元（token），并将其添加到词汇表中。
step 4：更新词频统计
将文本数据集中的所有实例中的选定字符对替换为新创建的词元，从 step 2 进行重复，直到达到预定的词汇表大小或无法进一步合并字符对。

……