赞
踩
这里解析的主要是关于NLP搭建网络中遇到的常见的一个关于维度的问题,为什么我们模型中Input layer的输出维度和embedding的维度明明看上去对不上,模型却能好好运行?搞懂了它能帮助我们更进一步的理解词向量。
-
- ## 一、需要设置的值
- embed_size = 300 # 词向量维度
- max_features = 50000 # 字典内的单词数/特征数
- maxlen = 100 # 每句话的最大长度
-
- ## 二、填充缺失值
- train_X = train_df["question_text"].fillna("_na_").values
-
- ## 三、对句子进行分词
- tokenizer = Tokenizer(num_words=max_features)
- tokenizer.fit_on_texts(list(train_X))
- train_X = tokenizer.texts_to_sequences(train_X)
-
- ## 四、填充
- train_X = pad_sequences(train_X, maxlen=maxlen)
-
- ## 五、标签
- train_y = train_df['target'].values
首先对“三”和“四”进行解释,我们将训练集(语料)中出现频次最高的前50000个词选出,构成我们的字典(同时也是特征数),此时我们将每个句子分词,并用这个0~49999个下标对其进行表示,maxlen就是我们设置的最大句子长度(一般可以对所有句子的词数进行统计取平均值)不够的进行(往左)补零,多余的截断。于是我们的train_X就变成了:
其shape为。前面的数字是训练集中的句子数。
在此之前我们的训练数据是类似这样的:
- inp = Input(shape=(maxlen,))
- x = Embedding(max_features, embed_size)(inp)
- x = Bidirectional(CuDNNGRU(64, return_sequences=True))(x)
- x = GlobalMaxPool1D()(x)
- x = Dense(16, activation="relu")(x)
- x = Dropout(0.1)(x)
- x = Dense(1, activation="sigmoid")(x)
- model = Model(inputs=inp, outputs=x)
- model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
-
- print(model.summary())
我们搭建的网络没有运用到预训练的词向量。这里我们仅仅关注前两层,也就是Input层和Embedding层。
我们看一看网络参数:
_________________________________________________________________ Layer (type) Output Shape Param # ================================================================= input_2 (InputLayer) (None, 100) 0 _________________________________________________________________ embedding_2 (Embedding) (None, 100, 300) 15000000 _________________________________________________________________ bidirectional_2 (Bidirection (None, 100, 128) 140544 _________________________________________________________________ global_max_pooling1d_1 (Glob (None, 128) 0 _________________________________________________________________ dense_1 (Dense) (None, 16) 2064 _________________________________________________________________ dropout_1 (Dropout) (None, 16) 0 _________________________________________________________________ dense_2 (Dense) (None, 1) 17 ================================================================= Total params: 15,142,625 Trainable params: 15,142,625 Non-trainable params: 0 _________________________________________________________________ None
其中的None指的是我们之后会设置的batch_size,这里不必理会。那么问题来了,这个(None, 100)是怎么通过我们的EmbeddingMatrix(50000, 300)得到这样一个维度(None, 100, 300)的???
聪明的你肯定已经发现了,我们的输入必须也得包含50000这样一个维度啊,不然怎么乘得掉呢?
这里将Input层的官方说明引出:
- shape: A shape tuple (integer), not including the batch size. For instance,
shape=(32,)
indicates that the expected input will be batches of 32-dimensional vectors.
也就是说,不看batch_size的话,其实我们输入的是一个100维度的向量,正好对应了上面的maxlen对吧。
那我们embedding层的作用,是将正整数下标转换为具有固定大小的向量。
如[[4], [20]]->[[0.25,0.1], [0.6,-0.2]]。一定要注意到一个下标对应一个向量。
所以embedding层,其本质就是,我们用下标去寻找对应的映射!
为什么这么说,因为我们的每个词,都对应的是一个OneHot encoder,例如字典为50000的大小,单词Ant在其中下标为4,就是一个[0, 0, 0, 1, 0, 0, 0, 0...]维度为50000的这样的一个向量。
而我们的embedding_matrix有50000 x 300这么大,其中每一行都对应着字典中每个词对应的词向量!因为是onehot(假设还是Ant),所以用其去乘的话就相当于直接去找矩阵中第4行就完了(读者在草稿纸上一画就明晰了),这就是一个查表映射的过程。查找得到的向量就是我们之前设置的300这么大。
于是就可以解释了,为什么100个词输进去,得到的是(100, 300)这么大的一个矩阵,而加上batch_size后就是上面看到的(None, 100, 300),keras中没有使用乘法(虽然本质是乘法),而是直接使用的通过下标去查找映射,所以维度很容易让人迷惑!
我们在NLP的过程中可能会遇到很多预训练的embedding,比如word2vec啊,glove啊,fasttext啊。它们都是经过不同的语料以及不同的训练方法训练而成的,接着可能就有一些问题了:
x = Embedding(max_features, embed_size, weights=[embedding_matrix], trainable = False)(inp)
PS : 附上一个比较完整的使用预训练的词向量的方法,里面没有提到的变量都和之前涉及的操作一样
- ### 得到语料中所有词向量
- EMBEDDING_FILE = '../glove.840B.300d/glove.840B.300d.txt'
-
- def get_coefs(word,*arr):
- return word, np.asarray(arr, dtype='float32')
-
- embeddings_index = dict(get_coefs(*o.split(" ")) for o in open(EMBEDDING_FILE, 'r', encoding = 'UTF-8'))
-
- all_embs = np.stack(embeddings_index.values())
-
- emb_mean,emb_std = all_embs.mean(), all_embs.std()
-
- embed_size = 300
-
- word_index = tokenizer.word_index
-
-
- ### 初始化矩阵以及通过字典去提取词向量构建矩阵
- num_words = min(max_features, len(word_index))
-
- embedding_matrix = np.random.normal(emb_mean, emb_std, (nb_words, embed_size))
-
- for word, i in word_index.items():
- if i >= max_features:
- continue
- embedding_vector = embeddings_index.get(word)
- if embedding_vector is not None:
- embedding_matrix[i] = embedding_vector
-
- ### 构建模型
- inp = Input(shape=(maxlen,))
- x = Embedding(max_features, embed_size, weights=[embedding_matrix], trainable = False)(inp)
- x = Bidirectional(CuDNNGRU(64, return_sequences=True))(x)
- x = GlobalMaxPool1D()(x)
- x = Dense(16, activation="relu")(x)
- x = Dropout(0.1)(x)
- x = Dense(1, activation="sigmoid")(x)
- model = Model(inputs=inp, outputs=x)
- model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
- print(model.summary())
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。