赞
踩
BERT(Bidirectional Encoder Representations from Transformers)近期提出之后,作为一个Word2Vec的替代者,其在NLP领域的11个方向大幅刷新了精度,目前网络最优突破性的一项技术了。
特点:BERT的本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示,所谓自监督学习是指在没有人工标注的数据上运行的监督学习。两个自监督任务组成,即MLM和NSP
Word2vec 是 Word Embedding 方式之一,属于 NLP 领域。他是将词转化为「可计算」「结构化」的向量的过程。就是构建了一个多层神经网络,然后在给定文本中获取对应的输入和输出,在训练过程中不断修正神经网络中的参数,最后得到词向量。CBOW模型和skip-gram模型
流程:1) 分词 / 词干提取和词形还原(2) 构造词典,统计词频。(3) 构造树形结构4)生成节点所在的二进制码。(5) 初始化各非叶节点的中间向量和叶节点中的词向量。(6) 训练中间向量和词向量。
Word2vec
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。