赞
踩
余弦相似度可以度量两个向量的相似程度,我们自然想到可以将单词或者文本用向量表示,来判断两者的相似程度,而词嵌入模型则是一种实现方式,将所有出现的单词作为一个词袋库,将onehot向量进行压缩表示成(50到300维)的向量,利用中间层的隐藏向量,讲单词变成向量表示,方便后续的模型输入(如bert等)
tf-idf:字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,但忽视了词序关系
主题模型:是一种基于概率图的生成式模型,利用文档中单词的共现关系进行单词主题的分类,得到文档-主题和主题-单词两个概率分布。
流程:
1.根据所有单词库行程onehot编码
2.每个单词乘以输入矩阵W1得到相应的隐向量
3.将所有单词隐向量求平均
未做优化:
4.平均向量乘以输出向量W2,得到1*V的向量(V为单词个数)
5.对V向量求softmax
Hierarchical Softmax优化:
4.用霍夫曼树代替W2矩阵和softmax,将隐向量作为根节点,单词作为叶子节点,利用二元逻辑回归,找到目标单词
Negative Sampling:
4.将中心词和非中心词看做一个二分类,训练一个二元逻辑分类器,负例的产生是通过在单词表更小的粒度上进行采样(每个词根据词频的不同比重也不同)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。