当前位置:   article > 正文

基于 word2vec 使用 wiki 中文语料库实现词向量训练模型_word2vec 中文语料库

word2vec 中文语料库

之前做过一些自然语言处理的工作,主要是根据一些企业在互联网上的相关新闻进行分析,对其倾向性进行判断,最终目的是辅助国内某单位更好地对其管辖的企业进行监管工作。现在总结整理一下。这篇文章主要对词向量训练阶段进行阐述。

数据获取

使用的语料库是 wiki 百科的中文语料库,下载地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2。另外,提供百度网盘下载链接:https://pan.baidu.com/s/1eLkybiYOE_aVxsN0pALATg,提取码为:hmtn。

下载之后如下图(PyCharm 截图

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号