赞
踩
将每个核心特征(比如词性)嵌入到D维空间中,用空间中的一个向量表示。
通常空间维度D远小于样本数。
嵌入的向量作为参数一起被训练。
即一个 V * D 的参数矩阵,V为词表大小,D为空间维数。将一个词的one hot向量与该矩阵相乘即可得到该词的嵌入向量
如何使用稠密编码?
大名鼎鼎的word2vec就是一种稠密编码。
将词向量训练好,再放进模型中进行下游任务,预训练就可以这么理解。
连续词袋模型:
C B O W ( f 1 , . . . , f k ) = 1 k Σ i = 1 k v ( f i ) CBOW(f_1, ... , f_k) = \frac{1}{k} \Sigma_{i=1}^kv(f_i) CBOW(f1,...,fk)=k1Σi=1kv(fi)
W C B O W ( f 1 , . . . , f k ) = 1 Σ a i Σ i = 1 k a i v ( f i ) WCBOW(f_1, ... , f_k) = \frac{1}{\Sigma{a_i}} \Sigma_{i=1}^ka_iv(f_i) WCBOW(f1,...,fk)=Σai1Σi=1kaiv(fi)
将一个词作为中心词,与其窗口内的所有词的向量作(加权)平均后得到新的向量。
其他处理:(对于一个词来说,不是对于一个维度来说)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。