赞
踩
NLP自然语言处理步骤
未完待续。。。
1.数据收集(建立语料库)
1.1.利用已有数据2.4.词频统计
计算词集合中,每个样本(词)出现的次数。输出:词频表(key为词,值为词的出现次数)
可根据实际项目需求,删除高频词(例如常用词the、a、is等出现次数比较多,但没有实际意义)和低频词。
2.5.字母小写用2.4中的词编号替换语料库中的词。
备注:有些情况下,使用词频作为词的编号。
例如句子长度截取为规定长度,不足补规定字符(例如0)
3.模型搭建
实例说明(简单实例,方便理解,实际项目更复杂):
text.txt文件(内容)2.1注意:字母之间不是空格了,表示分开
text.txt文件 对应词集合2.3G
text.txt文件 对应词集合2.4G 1
根据以上集合,可以建立一个词矩阵
one-hot列构成了一个词向量的矩阵,实际项目中可能根据需要删除词频较低的词,例如,可以删除C-G行
text.txt文件 对应词集合(字母小写)2.5Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。