赞
踩
Chinese Embedding collection incling token ,postag ,pinyin,dependency,word embedding.中文自然语言处理向量合集,包括字向量,拼音向量,词向量,词性向量,依存关系向量.共5种类型的向量.
项目地址:https://github.com/liuhuanyong
目前不同于one-hot表示的稠密向量在常见的NLP任务中运用的越来越广,而目前开源的向量资源还比较单一,只有中文和其他语言的词向量.本项目想弥补这一缺陷.
1,NLP中的各种语言单元形态都可以进行向量表示.
2,稠密低维的向量较one-hot这种sparse向量更具备语义信息.
3,中文信息处理中可以进行词向量表示的语言单位包括:
运用词向量建模方法,分别完成以上5种形态的词向量训练, 并检验效果.
本项目将使用中文维基百科(zhiwiki)作为训练语料来源.
本测试较为简单,直接使用语义最近的语言单元作为检验
train_vector.py: 向量训练脚本
test_vector.py: 向量测试脚本
向量名称 | 向量含义 | 词数 | 维度 | 例子 |
---|---|---|---|---|
de_vec_10 | 依存关系向量 |
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。