赞
踩
原代码文件
链接:https://pan.baidu.com/s/1J8kmTFk8lec5ubfwBaSnLg
提取码:e4nv
目录:
目标:中文句子中的词与词之间加上边界标记,本质是划分词的边界。
英文天然有空格作为分词符合。而对于中文如何让机器智能识别出单词词汇,是文本分析的第一步。
基本分词思想:(1) 由句子到词.(2) 由字到词
具体分词方法:
举例:
如何分词使得这个句子的共现概率最大
分词原理:HMM(隐马尔可夫模型)
(如何设置分词符号,使得句子的共线概率最大)
import jieba
import pkuseg
text = "绿子在电话的另一头久久默然不语,如同全世界的细雨落在全世界所有的草坪上一般的沉默在持续。"
seg_list = jieba.cut(text, cut_all=False, HMM=True)
print("jieba Cut result is: " + " ".join(seg_list))
seg = pkuseg.pkuseg() # 以默认配置加载模型
text = seg.cut(text) # 进行分词
print("pkuseg Cut result is: " + "/".join(text))
jieba Cut result is: 绿子 在 电话 的 另一头 久久 默然不语 , 如同 全世界 的 细雨 落 在 全世界 所有 的 草坪 上 一般 的 沉默 在 持续 。
pkuseg Cut result is: 绿子/在/电话/的/另/一头/久久/默然不语/,/如同/全世界/的/细雨/落/在/全世界/所有/的/草坪/上/一般/的/沉默/在/持续/。
在使用使用jieba或pkuseg分词后,每一个句子被划分为一个个词。但是有些词是没有意义的(无法体现该段文本的
特征),如“在”,“的”,“一些”,标点符号等。因此我们需要去除这些词。这一步骤称为“去除停用词”。
如下是本次实验使用的停用词文件
#获取停用词集合 def get_stopwords(): stopwords = pd.read_csv ("F:\\研一课程\\周水生机器学习中的优化\\LSTM谣言检测\\rummordetection_lstm-main\\rummordetection_lstm-main\\stopwords\\stopwords.txt", index_col=False, sep="\t", quoting=3, names=['stopword'], encoding='utf-8') return set(stopwords['stopword'].values.tolist()) def cutsentences(sentences): #定义函数实现分词 print('原句子为:'+ sentences) cutsentence = jieba.lcut(sentences.strip()) #精确模式 print ('\n'+'分词后:'+ "/ ".join(cutsentence)) stopwords = get_stopwords() # 这里加载停用词的路径 lastsentences = '' for word in cutsentence: #for循环遍历分词后的每个词语 if word not in stopwords: #判断分词后的词语是否在停用词表内 if word != '\t': lastsentences += word lastsentences += "/ " print('\n'+'去除停用词后:'+ lastsentences) sentence = '绿子在电话的另一头久久默然不语,如同全世界的细雨落在全世界所有的草坪上一般的沉默在持续。' cutsentences(sentence)
原句子为:绿子在电话的另一头久久默然不语,如同全世界的细雨落在全世界所有的草坪上一般的沉默在持续。
分词后:绿子/ 在/ 电话/ 的/ 另一头/ 久久/ 默然不语/ ,/ 如同/ 全世界/ 的/ 细雨/ 落/ 在/ 全世界/ 所有/ 的/ 草坪/ 上/ 一般/ 的/ 沉默/ 在/ 持续/ 。
去除停用词后:绿子/ 电话/ 另一头/ 久久/ 默然不语/ 全世界/ 细雨/ 落/ 全世界/ 草坪/ 沉默/ 持续/
stopwords = get_stopwords() # 这里加载停用词的路径
print(type(stopwords))
stopwords_=list(stopwords) #set是集合,无序,查看元素只能遍历所有打印出来,转为list.
print(stopwords_[1:20])
<class 'set'>
['个别', '.', '—', '乘势', '互相', '以前', '为什么', 'somewhere', 'keep', '一', '■', '对待', "i'll", '此次', '作为', '据此', '}>', '对比', '成年']
print(stopwords)
{nan, '个别', '.', '—', '乘势', '互相', '以前', '为什么', 'somewhere', 'keep', '一', '■', '对待', "i'll", '此次', '作为', '据此', '}>', '对比', '成年', '殆', 'thanks', '_', '傥然', '10', 'his', '-', '照着', '这些', '具体来说', '-[*]-', '|', '知道', '立刻', '恍然', 'usually', '借此', 'more', '不过', '这麽', '岂止', '=[', 'possible', 'off', 'probably', 'took', '一转眼', 'value', '致', '咱们', 'b]', '(', '!', '人', '除却', '允许', '100', '哼唷', '切勿', '咋', '见', '4', '89', '当前', '这么样', '左右', '庶乎', '接著', '第二大节', '结果', 'now', 'neither', '第五大道', '共同', '看起来', '⑧', 'says', '不拘', 'specify', '紧接着', '光', '我的', '冲', 'nor', 'on', '三番五次', '起见', '关于', '第二类', 'cannot', 'nine', '莫如', 'seemed', '奈', 'outside', '而又', '不会', '如若', '自从', '由于', '2016', 'twice', '有效', '91', '或许', 'hereafter', '93', '相等', '意思', '第五集', '53', '打', '争取', '当中', 'that', '」', '仅仅', '之前', "it'd", 'say', '@', 'seeming', '更有趣', '05', '取得', '除此以外', '吓', 'e]', '不一', 'once', '虽则', '向使', '来看', '敢情', '9', 'there', '其', '上午', '行动', 'seven', "you've", 'used', '下面', '大事', 'seeing', '很', '49', '暗地里', '从此以后', '也好', '尽管', 'indicated', '且说', '长此下去', '有一期', 'toward', '不曾', 'said', '70', '到处', 'per', '存心', '那末', '人人', '元/吨', 'indicates', '与其说', '勃然', '第二讲', '从此', 'believe', '吱', "there's", '当下', '赶早不赶晚', '平素', 'thereafter', '过来', 'go', '不问', '.一', '是否', 'our', '来不及', '秒', 'relatively', '哪边', '又笑', 'like', '要', 'far', 'seems', '往', '相当', '随后', '倒是', '反之亦然', '72', '倘', '看', '具有', 'follows', '一边', 'anybody', '如今', '第四者', '54', 'us', '②c', '第二盘', '可以', 'ones', '那么些', '适当', '怪', '有及', '一番', '奋勇', 'only', '是的', '来讲', '65', '新华社', '嗡嗡', '某', '别处', '≈', 'these', '极其', '处在', '和', '啪达', 'consequently', '仍然', '啊哟', '犹且', '极大', '绝顶', '第三件', '高兴', '遵照', 'into', '到头来', 'considering', '宁可', '简直', '长话短说', 'them', '正是', '我们', '上', '不但', '设使', '那时', '不限', '每每', '叫做', '如其', '几度', '自打', '总是', '不大', '之所以', '乌乎', '怎奈', '越是', 'specified', '大概', 'regards', 'four', 'becoming', '漫说', '不胜', '贼死', '尽如人意', '“', '别说', './', 'zt', '遵循', '以期', '大体', ';', '上去--', 'alone', '弗', 'towards', '。', '~+', '不惟', 'soon', '不下', '对', '〕〔', '谁知', 'co', '如是', '自后', '继后', '敢于', '非得', '第十六', 'below', '如常', '里面', '0', '便', '后面', '总之', '构成', '该', 'someone', '假若', 'ever', 'getting', '如果', '沙沙', '二', '余外', 'nd', '【', '偏偏', '常言说', '罢了', '41', 'ltd', '第五课', 'few', '依照', '′|', '42', '当然', '不止一次', '第二任', '及时', '冒', '替', '或则', '就是', '果真', '不仅...而且', '具体地说', '丰富', '而', '光是', 'seem', '时', 'have', 'hence', 'hereupon', '大张旗鼓', '起来', '因而', 'tries', 'nobody', '从来', '许多', '带', 'against', '使用', 'both', 'who', '3', 'away', '女子', 'contains', 'together', '+', '非但', '了', '说来', '92', 'available', '第三站', '就是了', '并没', '〕', '第五位', 'above', '差一点', '伙同', '既', '倘使', '/', '既往', '咱', '上下', '但凡', '乃至', '人们', 'merely', '即刻', '六', '等', '默默地', 'c]', '并', 'without', '86', '出', '而论', 'exactly', '反过来说', '>λ', '全力', '81', 'then', '按时', 'besides', 'was', 'about', '巴', '彼此', '联袂', '第十九', '嘿', 'old', '与否', '部分', '26', '并肩', '36', '三天两头', "didn't", '八成', '③', '按', '↑', '6', '77', "you'd", '22', '为主', '4', '当头', '还是', '单纯', '始而', '喏', '58', "doesn't", 'normally', '分期', 'across', 'know', "wasn't", '则', '44', '哉', 'any', "t's", '实现', 'everywhere', '不止', '他们', '必将', '诚如', '非特', 'sure', '47', '总的来说', '不特', '似的', '顺着', '一切', '一来', '顷刻', '呃', "we'd", '他是', '[]', '必须', '以至于', 'zero', '各人', '同时', "won't", 'saying', '正确', '亲自', '不怕', 'near', 'thanx', '非独', 'un', '第十次', '随着', '顷', 'does', '谁料', '〉', '6', '若夫', '四', '进行', "isn't", '最后一关', '替代', '宁肯', '应该', '达到', 'whatever', '[-', '[', '何苦', 'still', '已', '自己', '沿', '要是', '而已', '重新', 'my', '从今以后', '根本', '多少钱', '大面儿上', '叫', '防止', '谨', '从古至今', 'until', '以来', '掌握', '具体', '若是', 'six', '企图', '借以', 'qv', '鄙人', '43', '今後', '敢', 'be', 'described', 'very', '去', '看来', '而况', '难说', '每年', '3', '啷当', "c's", "we've", '不得不', 'gone', 'should', '得天独厚', '这样', '特别是', '表示', '即便', '如此等等', 'the', '种', '至于', '〔', '倘或', '第三单元', '兼之', 'ought', '第四张', '以及', '而是', '快', '2014', '猛然间', '二来', '一起', 'likely', '换言之', '待到', '第三句', ':', '全年', 'sub', '对于', '采取', '只有', '下去', '~', '别人', "weren't", '截至', '尽量', '呼哧', '于是乎', 'yourself', '挨家挨户', '活', 'hardly', '啐', '74', '〈', '′∈', '故此', '她', '满足', '全部', '52', '不定', 'later', '并非', '多么', '切切', '再说', '第二波', '了解', '所在', '除', 'whereas', 'hello', '然后', '按期', '第十集', '乃', '那麽', '有的', ']∧′=[', '有一部', '如前所述', '呀', '>', 'himself', '任何', '此外', '最近', '经常', '若果', '屡屡', '规定', 'further', '>>', '率尔', '忽然', '全体', '充分', '安全', 'might', 'nothing', '几时', 'being', '甚而', 'ok', '这儿', '开展', '什麽', '宁', '这种', '存在', '自身', '我', '不对', '~~~~', '别是', '随著', 'corresponding', '吧哒', '牢牢', '是什么', '第三期', '每', '一何', '85', '另行', '不但...而且', '唉', '以下', 'your', '精光', '即若', '极度', '第十一个', '已矣', 'everything', '1', 'little', '猛然', 'everyone', '共', '如何', '相信', '③]', '老大', 'oh', '难怪', 'downwards', '本身', '吧', '几乎', 'Ⅲ', '重要', '边', 'me', 'thoroughly', '较为', '=', '迟早', '多年来', '过于', '抑或', '彼时', 'rather', '任凭', '合理', '固然', '从优', '一.', '55', "we're", '相同', '趁势', '马上', '处理', '累次', '』', '不变', '可见', '当着', '甚或', '不择手段', 'associated', '看出', '极为', ']', '&', '鉴于', '9', '反之', '再则', 'behind', '特点', 'get', '怎样', '第十天', 'γ', '毫不', '尔等', '再有', '後来', 'did', '即如', '可能', 'anything', '敞开儿', '零', '最后一遍', '略微', 'ex', '|', 'theirs', '}', 'no', '它们', '*', '71', '组成', '非常', '?', '更有意义', '又又', '40', '──', '@', '末##末', '最后', '之一', '④', '基本', '最後', 'via', '岂', '·', 'somebody', '不光', 'within', '多数', '如上', 'just', 'perhaps', '不仅仅', '仍', 'which', '何止', '别', '这', '诚然', '遇到', '地', '间或', 'que', '能否', '分期分批', '那个', '成为', '趁', '14', '立', '现在', '切', '是以', 'vs', '有一根', 'entirely', '俺们', '正常', "who's", ':', '召开', '什么意思', '向', '有一百', '⑦', '难道说', '欤', '范围', '或多或少', '97', '75', 'beyond', '哪怕', '98', '呜', '恐怕', '受到', '风雨无阻', 'enough', '竟', 'ZT', '即或', "i'm", '确定', '老', 'ZXFITL', 'unfortunately', '第二首', 'least', '15', 'up', '其二', '莫不', '集中', '咳', '各个', '九', '大凡', '第三册', '连日', 'uses', '只消', '据悉', '最好', 'less', '喀', '不得已', 'most', 'some', '从古到今', '联系', 'since', '归根到底', 'going', '亦', '这般', '但', '并不', 'already', '更远的', '它', '尔后', 'ours', '将要', '认识', '否则', '据我所知', '明显', 'here', 'to', 'non', '千', '即将', '按照', 'somewhat', 'from', '川流不息', 'has', '不怎么', '乃至于', 'unlikely', '绝不', 'self', '能', '或曰', '有些', '自各儿', '全面', '广大', '接连不断', '们', '汝', 'anyone', "we'll", 'new', '出现', '其次', 'but', '×', '何妨', '再次', 'way', 'given', 'again', '诸如', '⑤', '后来', '上升', '差不多', '由此可见', '不同', '嘎', '全都', 'whom', '个', '日', '01', '大体上', "haven't", '第四代', '恰恰相反', 'do', '03', '27', '偶尔', '又一遍', '一片', '由此', '这就是说', '当', '有利', '之后', 'right', 'much', '挨个', '要么', 'wherein', '下来', 'В', '不已', '又', 'five', 'exp', '79', 'her', '十分', '得到', '权时', '看样子', '[', '进而', 'thereupon', '各级', '让', '好象', '上述', '臭', '有问题吗', '://', '如同', '由是', '为', '进入', '又喜欢', 'other', '将才', '倍加', '她是', '彼', '近几年来', '说明', "they'd", 'obviously', '第二十', '31', 'take', '从未', '唯有', 'during', '不得了', '更为', '亲口', '专门', "i'd", '当场', 'happens', '-β', '最后一科', '后', '如上所述', 'an', "you'll", 'please', '看见', '砰', '故意', '日见', '其余', '某些', '各', '譬喻', '人民', 'edu', '喽', 'secondly', 'mostly', '挨门挨户', 'useful', '分', '04', '乘胜', '所幸', '临到', '以至', 'gotten', 'themselves', "that's", 'indeed', '为止', '单单', '迫于', '从速', 'than', '总的说来', '充其极', 'kept', '接下来', '顶多', '随时', '第四版', '前面', '多年前', '尽心尽力', '而且', '那里', '二话不说', 'over', '几', '做到', '待', '蛮', '以上', '财新网', '莫若', 'also', '论', '正在', 'comes', 'cause', '其它', '不满', '基本上', 'com', '莫非', 'meanwhile', 'plus', 'tried', '出去', '此中', '但愿', '後面', 'must', "hadn't", '比', '毫无', '来说', '最后一页', '$', '真正', '定', '完全', '目前', 'such', 'before', '这么些', '局外', '交口', "it's", '有一堆', 'various', '正巧', 'whose', '记者', '心里', '固', '45', '有一群', '11', '起先', 'cant', '不是', '有一片', '因', '彻底', '诸', '似乎', '像', '普遍', '原来', '俺', '\\', '不论', '要求', '因着', '×××', 'ourselves', '较比', '好的', '后者', '/', 'tends', '{', '坚决', '℃', '从严', '结合', '你们', '哪', '概', '83', '几经', 'inasmuch', '略', '强烈', '多多', '怕', '八', 'because', '打从', 'each', 'at', '拿', '嘿嘿', '过', 'reasonably', '第十八', '当儿', '需要', '除外', '毋宁', '尽早', '首先', '59', '立地', '中间', '啊呀', 'thank', '然则', '连声', 'ie', '这点', '或是', '5', '⑨', '凭', '<φ', '显然', '哇', '第三卷', '这么点儿', '%', '缕缕', '那些', '屡次', '挨次', '强调', '加强', '附近', '32', '是不是', '!', '反之则', '0', 'anyway', '极', '有所', 'particular', '据称', '28', 'truly', "can't", '继之', 'inner', '那儿', '61', '亲手', '一直', '够瞧的', '方才', '适用', '那', '白', 'selves', '至', 'so', '凡是', 'certain', '等到', 'throughout', '比起', '总而言之', '的确', '同', '究竟', '却', 'let', '呆呆地', '皆可', 'whoever', '数/', 'need', '难道', '动不动', '任', '日益', '赶快', 'same', ';', '快要', 'maybe', '颇', '亲眼', '每天', 'really', '37', '嗬', '至若', '76', '以致', '甚至于', '由由', '87', '=(', '白白', '拦腰', 'keeps', '逢', 'best', '背地里', '前进', '更有效', '不妨', '为何', '可是', '→', '坚持', '转贴', 'course', 'moreover', 'actually', '第十名', '哪里', '不然', '主张', '竟而', 'one', 'although', '些', '归根结底', 'following', '不如', '有力', '另一方面', '最大', '据', '初', '{-', '每逢', '嘎登', '较', 'look', '跟', '不可抗拒', '格外', '第四单元', '’', "hasn't", '达旦', '应用', '直接', '啦', '也就是说', '当庭', '35', '以后', '出于', '有一方', '到', '从而', '绝', 'beforehand', '就地', "let's", '第三产业', '与此同时', '省得', '次第', '19', 'therein', '很多', '比方', '各式', 'theres', '使得', '一则通过', '第五卷', '累年', 'whenever', 'out', '就算', '趁早', '哦', '突出', 'well', '类如', '今', '<±', 're', '什么样', 'third', '更加', '多多少少', '动辄', '抽冷子', '少数', '2', 'inc', '切不可', '继而', 'accordingly', '嗡', '尽', 'what', '从无到有', '乘隙', '=-', '觉得', '他', '立马', '据实', '73', '将', '怪不得', 'gives', '乘', '到了儿', '简言之', '一时', '问题', '针对', 'appreciate', '各自', '既然', '[*]', '--', '深入', '腾', '归', '先後', '我是', 'even', '…………………………………………………③', '矣哉', '一下', '就是说', '必要', '第三类', '前此', '严格', '已经', '哈哈', '密切', '举行', '怎么办', '加入', "aren't", '不单', '向着', 'always', '2015', '以免', '啊', "they're", ' ]', '怎', '尽然', '认真', 'wish', '很少', "couldn't", '<Δ', 'except', '她们', '::', '第二把', '必然', '率然', '理该', '8', '不尽', '历', '较之', '莫', 'itself', 'immediate', '+ξ', '者', '隔日', 'by', '<λ', '从重', '本着', 'onto', 'had', "c'mon", '充其量', '岂非', 'certainly', 'hi', '每时每刻', '矣乎', '纯', '之', '常', '乘机', 'sent', '得出', '是', '各种', '往往', '其中', 'noone', '今后', '同一', '94', '个人', '39', '¥', 'under', '人家', '不外乎', '扑通', '战斗', 'able', '即令', '归齐', 'liked', '偶而', '将近', 'looks', 'came', '进去', '比及', '而后', '第四位', '直到', '穷年累月', '按说', '当时', '与', '说说', '33', '甫', '第十四', '二话没说', 'come', '除此', 'sup', '比如说', '要不然', '57', '按理', 'thence', '什么时候', '有问题么', 'f]', '尔尔', '以', 'hereby', 'necessary', '例如', '岂但', 'according', '如次', '即', '高低', '对方', '吗', '依靠', '-', '严重', '自个儿', '各地', '逐步', '考虑', '第二集', '有', '上面', 'sometimes', '怎麽', '大多数', '那么样', 'goes', '它是', '另方面', 'is', '不免', '绝对', '屡次三番', '顿时', '略加', '呢', '长期以来', '又一城', '必定', '不敢', '形成', '06', '嘛', '=″', '成年累月', '您们', '第三大', '尽可能', 'another', '设或', '连同', 'φ', '朝着', '犹自', 'latterly', '加以', '不足', 'or', '有效地', '老老实实', 'welcome', "wouldn't", '大抵', '表明', '90', '甚么', '第二关', '距', '大都', '78', '有点', '正值', 'she', '今天', '哪个', '不够', 'currently', ',', '此', '多', 'yet', '近来', '24', '默然', '突然', 'hers', '同样', "a's", '.', '&', '每个', '窃', 'am', '大', 'else', 'with', '话说', '最', '自', '遭到', '也', '或', 'taken', '0:2', '相对', '召唤', '12', '第二项', '另一个', '50', '才', '尽心竭力', '纵', '⑩', '一样', '相似', 'known', 'thats', 'definitely', '不', ',', '扩大', '介于', '第五部', 'a]', '的士高', '反而', '13', 'awfully', '另外', '及至', '++', '不仅仅是', '要不', '便于', '谁人', '她的', ')', '主要', '趁机', '63', '20', '38', '《', 'former', 'φ.', '且', '总的来看', '都', '它们的', '在', '而言', '略为', '注意', 'trying', '第二声', '来', '论说', 'eg', 'different', 'mainly', '第四集', '多亏', '最后一派', '▲', 'whither', '恰逢', 'having', '限制', '来得及', '积极', 'tell', 'ZZ', '此间', '容易', '倘若', '呸', '第四期', '它的', "they'll", '赶', '趁便', '除了', '’‘', 'shall', '近年来', 'looking', 'when', '有一批', '=☆', '56', '哪天', '三', '_', '忽地', '这会儿', '宁愿', '沿着', '所以', 'causes', '叮当', '嘘', 'instead', '及', '只是', '下列', '尤其', '纵然', '前者', 'ng昉', 'furthermore', '相应', '纯粹', 'went', 'yourselves', '为着', '内', 'been', 'this', '虽', '..', 'concerning', '一次', 'would', '此后', '第四届', '特殊', '只限', '于是', 'own', '再其次', '第三行', '㈧', 'formerly', '背靠背', "ain't", '有一对', 'two', '起', '打开天窗说亮话', '时候', '顺', 'three', '毕竟', 'anyways', '不能', '恰似', 'name', '60', '比照', 'think', '届时', '常常', '极端', '互', '反应', '七', '...', '嘻', '》),', '望', '除此之外', '凝神', '极了', '30', ')', ']', "he's", '获得', '无论', '<', '就要', '完成', '={', '如', '嘎嘎', '方便', '第五期', '又一村', '奇', '与其', '出来', '其实', '根据', '这一来', '从不', 'A', '凡', 'second', '趁着', 'respectively', '是什么意思', '然而', '分头', 'several', '不必', '决定', '藉以', 'otherwise', '普通', 'knows', '②', '+', '第十届', '今年', '一致', '嗳', 'sensible', '咦', '并且', '先后', 'provides', '其他', '赖以', '第二行', "it'll", '不由得', 'wherever', '这个', '不管', '起首', '起初', '<<', '从头', '哈', '基于', '迅速', '呕', '不得', '齐', 'sorry', '<', 'we', '最高', 'many', '不断', '没有', ')÷(1-', '当地', '有时', '凑巧', '倒不如', '有笑', 'yours', 'will', '此时', '就此', '看到', '一旦', '1.', '①', '巨大', 'eight', '连', '……', '前后', '96', '不能不', '且不说', 'him', '变成', '趁热', '只怕', '当即', '7', '没', '46', '故', '上去', '纵令', '从新', '焉', 'as', '上来', '一则', 'presumably', 'you', '除开', '地三鲜', '不迭', '%', '己', '比如', '=', '愤然', '能够', '当真', '分别', '逐渐', 'never', '被', ')、', '所谓', '大力', '不久', '就', '5', '年复一年', '断然', '碰巧', '当口儿', '综上所述', ',也', '过去', '用来', '恰如', '伟大', '难得', '}', '产生', '即使', '方能', '那会儿', '如此', '——', '第三日', '着呢', 'μ', '居然', '来着', '第三层', '造成', '得', '在于', '再', '得起', '然後', '大不了', 'want', '莫不然', '的话', '饱', '有没有', 'whereupon', 'yes', '恰好', '欢迎', '之後', '哎', '立即', '刚', 'indicate', '嗯', '”,', 'became', '第二款', 'upon', '95', 'appear', '您', '愿意', '$', '第四种', '有着', '有一起', 'quite', '———', '顷刻之间', 'its', '现代', '到底', '哎呀', 'regarding', 'Lex', '这边', '62', '不只', '适应', 'appropriate', '移动', '有关', '不力', '把', '何以', '08', '不尽然', "what's", '连日来', '小', '绝非', 'whole', '中小', '宣布', '借', '下', '谁', 'namely', 'clearly', '曾', '倒不如说', '会', '68', '月', '从早到晚', 'those', 'novel', '某个', '毫无保留地', '几番', '凭借', '大约', '取道', '不然的话', '大略', '29', '串行', '反倒', '兮', 'greetings', 'Δ', '不起', '啥', '有的是', '练习', '仅', '决不', '不外', '既是', 'lately', '自家', '︿', '云尔', '若非', '并没有', '切莫', '独', '依据', '哎哟', 'elsewhere', '从轻', '然', 'got', '成心', 'especially', '一方面', 'R.L.', 'et', 'contain', '喔唷', '三番两次', 'their', 'he', '保持', '常言道', '此处', 'however', '设若', '你是', '第', '于', '保管', '除去', '果然', 'hither', '策略地', '恰恰', '非徒', '一天', '不仅', '没奈何', '\u3000', '您是', 'herein', 'become', '不成', '以为', '公然', '据说', 'through', '第十一', '这么', '临', '属于', '转动', '总结', '具体说来', 'last', 'willing', '多次', '不要', "you're", '?', 'insofar', '(', '假使', 'allows', '呜呼', '并排', '纵使', '不亦乐乎', 'between', '经', '哩', '”', 'afterwards', "here's", '因为', '从小', '尔', '不料', '该当', '换句话说', 'help', '倘然', '么', '彻夜', 'either', '最后一题', '呵呵', '#', '5:0', '82', '共总', '隔夜', 'zz', '48', 'whence', '显著', '第五元素', '则甚', '呵', '连袂', 'unto', '一面', 'everybody', '09', '请勿', 'hopefully', '近', '矣', 'sometime', '一定', '所有', 'whether', '倍感', '又为什么', '`', 'ask', '反手', '还要', 'something', '对应', '反映', '69', '千万千万', '眨眼', 'nowhere', '不比', 'seen', '因了', 'in', '任务', '叮咚', '通过', 'could', '其一', '半', '哪年', '认为', '长线', '...................', '又及', 'whereafter', '进来', '最后一集', '⑥', '何时', '大多', '大批', '甭', 'better', '运用', 'somehow', '更重要的是', '管', 'followed', '依', '急匆匆', 'see', '这时', 'containing', '暗自', ' [', '广泛', '在下', '为此', '反倒是', 'all', '转变', '何必', '却不', '云云', '][', '儿', 'allow', 'seriously', "shouldn't", '恰巧', '本', '真是', '起头', '8', '第三回', 'becomes', '2', '弹指之间', 'after', '哼', '路经', '慢说', '他人', '日臻', '>', 'ignored', 'forth', '万一', '02', '何须', 'herself', '但是', '周围', '得了', '25', '甚且', '乎', 'thus', '的', 'latter', '不知不觉', '帮助', '其后', '呼啦', '故而', '大大', 'okay', '加上', '一一', '均', 'consider', '失去', '第三课', '66', '轰然', '开始', 'amongst', 'serious', '并不是', '^', 'of', '乘虚', '】', '第三声', '至今', '第二单元', 'they', '简而言之', '立时', '般的', 'and', 'therefore', '随', '最后一颗子弹', '你', '84', '有一道', 'though', '必', '朝', '以故', '全然', '处处', '常言说得好', '维持', '呗', 'viz', '瑟瑟', '『', '所', '清楚', 'thereby', "they've", '最后一班', 'lest', 'aside', '接着', 'fifth', '看上去', '不独', '反过来', '咧', '昂然', 'where', "i've", '孰知', '1', 'despite', '07', '大举', '第二', 'how', '粗', 'thru', '各位', '加之', '只要', 'every', '巴巴', 'etc', '第三遍', '譬如', '好', '单', '使', 'use', '梆', '此地', '除此而外', '99', '从事', '不至于', '~', '陡然', 'rd', 'for', '双方', 'it', '或者', '诸位', '可', 'were', '挨门逐户', 'done', '为什麽', 'doing', '可好', '何况', 'gets', '有意的', 'none', '哪样', '古来', '还有', '第三集', '好在', '全身心', '怎么', '》', '再者', '方面', 'are', '64', '决非', '极力', '男子', '无宁', '数', '不了', 'beside', ''', 'specifying', '一个', '第三张', '照', '从', '要不是', '刚巧', '又小', '正如', '再者说', '本人', '尽快', '只当', '不少', '如期', '16', '本地', '那样', '这里', 'if', '匆匆', '有一会了', '整个', 'others', '他的', '迄', '不日', '也罢', '18', '满', '何尝', '不若', '67', 'regardless', '喂', 'almost', 'example', '34', '截然', '第十三', '千万', '即是说', '"', 'th', '因此', '由', '别的', '也是', '年', '多多益善', '理应', '为了', '2.3%', '传说', '12%', '到头', '那边', '多少', '以外', '别管', '不可', '独自', 'unless', 'try', '//', '保险', '刚才', 'wants', '仍旧', '无法', '旁人', '有喜欢', '曾经', "'", '乒', '哪儿', 'among', '第四套', '更进一步', '行为', 'may', '哗', '、', '庶几', 'wonder', '引起', '用', '一些', '咚', '大致', '那般', '尚且', '最后一眼', '开外', '既...又', '这次', '社会主义', 'saw', 'nearly', '*', '理当', '......', '第五组', '只', '继续', '离', '实际', 'asking', '每当', '如下', '何', '给', '7', '一般', 'next', '什么', '下午', '亲身', '并无', '消息', '两者', 'mean', '豁然', '不管怎样', '尽管如此', '方', '更有甚者', '呐', '21', '避免', '23', '第四场', '毫无例外', '代替', '到目前为止', '…', '何处', '五', '另悉', '还', 'nevertheless', '‘', 'often', 'whereby', 'apart', '51', 'why', '明确', 'inward', 'myself', '以便', '另', '第五年', '某某', '相反', '更', '举凡', 'LI', '促进', '哟', '陈年', 'using', '孰料', '从中', '况且', '虽然', '屡', 'anyhow', '#', '日复一日', '良好', '有著', '啊哈', '第四声', '怎么样', 'while', '暗中', '先生', '第五单元', '那么', '经过', 'Ψ', '惟其', '相对而言', '不可开交', '大量', '老是', '不再', '日渐', '若', 'placed', '等等', '重大', '何乐而不为', '假如', '准备', "don't", '∈[', 'too', '∪φ∈', '连连', '不时', '无', '不消', '着', 'along', '17', '姑且', '哗啦', 'anywhere', 'A', '而外', '通常', 'changes', '刚好', '复杂', 'not', '大家', 'howbeit', '除非', '不经意', '从宽', '不常', '先不先', '传闻', 'overall', '比较', 'needs', '第三篇', '以後', '哪些', '放量', "where's", '第三项', '之类', '竟然', 'down', '甚至', '进步', '看看', '顷刻间', '来自', '传', 'first', '第四年', '虽说', 'brief', '~±', 'particularly', 'can', 'around', '你的', '阿', '应当', '才能', 'thorough', '错误', '挨着', '不巧', '巩固', '惯常', '第四册', '靠', '及其', '88', '--', '80', '第十二'}
https://www.cnblogs.com/bill-h/p/14655224.html
使用下载好的训练好的词向量模型——/embeddings/sgns.weibo.bigram.bz2,
下载地址:https://pan.baidu.com/s/11PWBcvruXEDvKf2TiIXntg
from gensim.models import KeyedVectors
#读取词向量模型
def get_word2vec():
word2vec=KeyedVectors.load_word2vec_format("F:\\研一课程\\周水生机器学习中的优化\\LSTM谣言检测\\rummordetection_lstm-main\\rummordetection_lstm-main\\embeddings\\sgns.weibo.bigram.bz2",binary=False,unicode_errors="ignore")
#读取词向量文件sgns.weibo.bigram.bz2,使用越频繁的词就会越靠前。
return word2vec
word2vec=get_word2vec()
# 获取“词-索引”字典
word2vec.key_to_index
{',': 0, '的': 1, '。': 2, '@': 3, '!': 4, '了': 5, '、': 6, ':': 7, '是': 8, '一': 9, '有': 10, '】': 11, '?': 12, '在': 13, '我': 14, '你': 15, '和': 16, '个': 17, '�': 18, '不': 19, '人': 20, '“': 21, '一个': 22, '就': 23, '都': 24, '也': 25, '我们': 26, '要': 27, '#': 28, '好': 29, '”': 30, '啊': 31, '这': 32, '去': 33, ',': 34, ';': 35, '很': 36, '月': 37, '还': 38, '.': 39, '1': 40, '微博': 41, '》': 42, '上': 43, '会': 44, '说': 45, '《': 46, '~': 47, '年': 48, '吧': 49, '小': 50, '大': 51, '天': 52, '能': 53, '-': 54, '吃': 55, '来': 56, '自己': 57, '让': 58, '可以': 59, '给': 60, ':': 61, '到': 62, '看': 63, '就是': 64, '最': 65, '(': 66, '为': 67, '中国': 68, '多': 69, '与': 70, '中': 71, '北京': 72, '这个': 73, '[': 74, '爱': 75, '他': 76, ']': 77, '做': 78, '日': 79, '【': 80, '把': 81, '想': 82, '又': 83, '没有': 84, '2': 85, '什么': 86, '大家': 87, '旅游': 88, '被': 89, '对': 90, '吗': 91, '过': 92, '不是': 93, '将': 94, '之': 95, '。。。': 96, ')': 97, '呢': 98, '3': 99, '等': 100, '着': 101, '啦': 102, '里': 103, '酒店': 104, '点': 105, '太': 106, '没': 107, '但': 108, '用': 109, '今天': 110, '两': 111, '哦': 112, '还是': 113, '第': 114, '……': 115, '而': 116, '三': 117, '――': 118, '次': 119, '喜欢': 120, '分享': 121, '从': 122, '后': 123, '知道': 124, '5': 125, '种': 126, '那': 127, '得': 128, '4': 129, '一起': 130, '这样': 131, '��': 132, '下': 133, '您': 134, '活动': 135, '?': 136, '(': 137, '们': 138, '你们': 139, '现在': 140, '生活': 141, '时候': 142, '请': 143, '才': 144, '时': 145, '再': 146, '世界': 147, '更': 148, '她': 149, '地': 150, '~': 151, '开始': 152, '第一': 153, '10': 154, '!': 155, '还有': 156, '可': 157, '这里': 158, '几': 159, '它': 160, '美食': 161, '看到': 162, '//': 163, '已经': 164, '因为': 165, '时间': 166, '这么': 167, '6': 168, '朋友': 169, '如果': 170, '只': 171, '不要': 172, '他们': 173, '美': 174, '谁': 175, '很多': 176, '7': 177, '以': 178, '...': 179, '家': 180, '转发': 181, '张': 182, '_': 183, '关注': 184, '元': 185, '…': 186, ')': 187, '8': 188, '支持': 189, '一下': 190, '希望': 191, '像': 192, '怎么': 193, '"': 194, '需要': 195, '走': 196, '不能': 197, '一定': 198, '/': 199, '上海': 200, '觉得': 201, '叫': 202, '位': 203, '比': 204, '于': 205, '自': 206, '条': 207, '老': 208, '旅行': 209, '却': 210, '号': 211, '店': 212, '事': 213, '9': 214, '那么': 215, '孩子': 216, '新': 217, '快': 218, '真的': 219, '体验': 220, '跟': 221, '转': 222, '地方': 223, '当': 224, '心': 225, '"': 226, '并': 227, '感觉': 228, '推荐': 229, '或': 230, '照片': 231, '找': 232, '城市': 233, '四': 234, '不会': 235, '幸福': 236, '十': 237, '应该': 238, '哈哈': 239, '博文': 240, '~~': 241, '真': 242, '小时': 243, '快乐': 244, '不错': 245, '工作': 246, '呀': 247, '一直': 248, '精彩': 249, '开心': 250, '及': 251, '一样': 252, '手机': 253, '最后': 254, '图': 255, '非常': 256, '起来': 257, '问题': 258, '发现': 259, '已': 260, '前': 261, '2013': 262, '出': 263, '名': 264, '来自': 265, '老师': 266, '至': 267, '所以': 268, '不过': 269, '新浪': 270, '看看': 271, '12': 272, '行': 273, '起': 274, '香港': 275, '早安': 276, '拍': 277, '如': 278, '成为': 279, '只有': 280, '成': 281, '30': 282, '带': 283, '][': 284, '各种': 285, '其实': 286, '人生': 287, '发布': 288, '微': 289, '带着': 290, '参加': 291, '但是': 292, '么': 293, '机会': 294, '文化': 295, '本': 296, '送': 297, '期待': 298, '+': 299, '儿': 300, '第二': 301, '片': 302, '开': 303, '买': 304, '玩': 305, '欢迎': 306, '视频': 307, '场': 308, '图片': 309, '获得': 310, '美丽': 311, '餐厅': 312, '这些': 313, '东西': 314, '11': 315, '感谢': 316, '晚上': 317, '正在': 318, '花': 319, '网': 320, '摄影': 321, '20': 322, '参与': 323, '半': 324, '五': 325, '那些': 326, '发': 327, '刚': 328, '二': 329, '七': 330, '更多': 331, '所有': 332, '由': 333, '只是': 334, '成功': 335, '晚': 336, '明天': 337, '水': 338, '可爱': 339, '中的': 340, '喝': 341, '%': 342, '电影': 343, '免费': 344, '15': 345, '周末': 346, '听': 347, '客户端': 348, '该': 349, '加': 350, '每': 351, '先': 352, '味道': 353, '分钟': 354, '咖啡': 355, '滴': 356, '美国': 357, '位于': 358, '谢谢': 359, '国际': 360, '游': 361, '梦想': 362, '真是': 363, '国家': 364, '岁': 365, '--': 366, '菜': 367, '那个': 368, '特别': 369, 'good': 370, '别人': 371, '享受': 372, '长': 373, '每天': 374, '为了': 375, '打': 376, '有人': 377, '最好': 378, '写': 379, '达人': 380, '哥': 381, '女人': 382, '设计': 383, '其': 384, '无': 385, '服务': 386, '一些': 387, '公司': 388, '故事': 389, '出来': 390, '生命': 391, '台湾': 392, '内': 393, '必须': 394, '官方': 395, '如何': 396, '这种': 397, '创意': 398, '可能': 399, '件': 400, '多少': 401, '飞': 402, '日本': 403, '周': 404, '别': 405, '向': 406, '健康': 407, '今晚': 408, '不同': 409, '音乐': 410, '事情': 411, '选择': 412, '终于': 413, '一点': 414, ';': 415, '只要': 416, '座': 417, '全': 418, '风景': 419, '奥迪': 420, '站': 421, '然后': 422, '如此': 423, '最大': 424, '高': 425, '继续': 426, '好吃': 427, '哈哈哈': 428, '记得': 429, '香': 430, '版': 431, '死': 432, '总': 433, '妈妈': 434, '历史': 435, '此': 436, '准备': 437, '产品': 438, '哪': 439, '帮': 440, '永远': 441, '―': 442, '以后': 443, '景区': 444, '品牌': 445, '时尚': 446, '书': 447, '路上': 448, '现场': 449, '加入': 450, '刚刚': 451, '全国': 452, '问': 453, '笑': 454, '男人': 455, '一切': 456, '为什么': 457, '2012': 458, '阳光': 459, '爱心': 460, '子': 461, '今年': 462, '重要': 463, '猫': 464, '分': 465, '微信': 466, '・': 467, '天下': 468, '2014': 469, '有点': 470, '努力': 471, '厦门': 472, '岛': 473, '哈': 474, '生': 475, '粉丝': 476, '度': 477, '超级': 478, '美好': 479, '王': 480, '超': 481, '夜': 482, '最美': 483, '各位': 484, '主题': 485, '求': 486, '杯': 487, '拥有': 488, '经典': 489, '车': 490, '浪漫': 491, '肉': 492, '简单': 493, '节目': 494, '份': 495, 'A': 496, '所': 497, '企业': 498, '真正': 499, '红': 500, '米': 501, '而是': 502, '全球': 503, '三亚': 504, '国内': 505, '款': 506, '吃货': 507, '之旅': 508, '虽然': 509, '拍摄': 510, '力': 511, '山': 512, '粉': 513, '总是': 514, '美味': 515, '亲': 516, '传统': 517, '」': 518, '学习': 519, '黑': 520, '以及': 521, '适合': 522, '六': 523, '秀': 524, '地址': 525, '是不是': 526, '管理': 527, '路': 528, '~~~': 529, '未来': 530, '好看': 531, '梦': 532, '之后': 533, '直接': 534, '100': 535, '茶': 536, '八': 537, '爱情': 538, '卫视': 539, '少': 540, '市场': 541, '嘛': 542, '越': 543, '提供': 544, '放': 545, '穿': 546, '则': 547, '时代': 548, '18': 549, '间': 550, '都会': 551, '成都': 552, '回家': 553, '红包': 554, '篇': 555, '广州': 556, '新闻': 557, '女': 558, '通过': 559, '抢': 560, '同学': 561, '因': 562, '酒': 563, '「': 564, '人们': 565, '干': 566, '才能': 567, '摄影师': 568, '回': 569, '结果': 570, '值得': 571, '是否': 572, '见': 573, '之一': 574, '感受': 575, '进行': 576, '赞': 577, '使': 578, '只能': 579, '以为': 580, '漂亮': 581, '者': 582, '面': 583, '自然': 584, '新鲜': 585, '神': 586, '而且': 587, '发展': 588, '媒体': 589, '下午': 590, '认为': 591, '挖': 592, '鱼': 593, '注意': 594, '美女': 595, '游客': 596, '入': 597, '作品': 598, '加油': 599, '社会': 600, '同时': 601, '拿': 602, '原来': 603, '道': 604, '天气': 605, '容易': 606, '话': 607, '22': 608, '约': 609, '放入': 610, '一般': 611, '得到': 612, '牛': 613, '中心': 614, '完美': 615, '段': 616, '手': 617, '无法': 618, '每日': 619, '推出': 620, '各': 621, '环境': 622, '快来': 623, '锅': 624, '字': 625, '可是': 626, '相信': 627, '啥': 628, '50': 629, '男': 630, '其中': 631, '艺术': 632, '晚安': 633, '找到': 634, '好友': 635, '住': 636, '目前': 637, '祝': 638, '之前': 639, '雨': 640, '居然': 641, '童鞋': 642, '或者': 643, '句': 644, '过去': 645, '→': 646, '作为': 647, '编': 648, '除了': 649, '一家': 650, '群': 651, '系列': 652, '温暖': 653, '食': 654, '00': 655, '四川': 656, '不用': 657, '不到': 658, '有些': 659, '用户': 660, '完全': 661, '进入': 662, '正': 663, '风': 664, '信息': 665, '心情': 666, '出现': 667, '使用': 668, '越来越': 669, '部': 670, '内容': 671, '看着': 672, '特色': 673, '挺': 674, '马上': 675, '相声': 676, '最近': 677, '台': 678, '升级': 679, '哪里': 680, '.': 681, '营销': 682, '报名': 683, '私信': 684, '即将': 685, '电话': 686, '木': 687, '外': 688, '杂志': 689, '绝对': 690, '坐': 691, '发生': 692, '君': 693, '其他': 694, '南京': 695, '演员': 696, '突然': 697, '每个': 698, '飞机': 699, '声音': 700, '���': 701, '吃饭': 702, '活': 703, '嘻哈': 704, '价格': 705, '建筑': 706, '卖': 707, 'V': 708, '互联网': 709, '泰国': 710, '决定': 711, '先生': 712, '睡': 713, '这次': 714, '了解': 715, '食物': 716, '好好': 717, '油': 718, '靠': 719, '告诉': 720, '若': 721, '名字': 722, '对于': 723, '好像': 724, '法国': 725, '朋友们': 726, '坚持': 727, '口': 728, '能够': 729, '学': 730, '身边': 731, '方式': 732, '连': 733, '带来': 734, '日子': 735, '比较': 736, '太多': 737, '苹果': 738, '老板': 739, '时光': 740, '里面': 741, '个人': 742, '广告': 743, '任何': 744, '感动': 745, '结束': 746, '回来': 747, '炒': 748, '近': 749, '包': 750, '人民': 751, '另': 752, '早': 753, '称': 754, '14': 755, '曾': 756, '空间': 757, '确实': 758, '俺': 759, '祝福': 760, '著名': 761, '杭州': 762, '今日': 763, '人家': 764, '餐饮': 765, '更好': 766, '帮助': 767, '2011': 768, '曾经': 769, '味': 770, '团队': 771, '且': 772, '边': 773, '韩国': 774, '改变': 775, '妈': 776, '影响': 777, '最佳': 778, '19': 779, '想要': 780, '届': 781, '丰富': 782, '换': 783, '同': 784, '价值': 785, '姐': 786, '出发': 787, '下载': 788, '便': 789, '赶紧': 790, '钱': 791, '16': 792, '收到': 793, '主要': 794, '公里': 795, '达': 796, '13': 797, '必': 798, '新疆': 799, '旅': 800, '正式': 801, '24': 802, '建议': 803, '代表': 804, '专业': 805, '寻找': 806, '不仅': 807, '些': 808, '自由': 809, '80': 810, '旅游局': 811, '年前': 812, '声': 813, '集团': 814, '汽车': 815, '城': 816, '海': 817, '网络': 818, '肯定': 819, '热': 820, '新的': 821, '身体': 822, '21': 823, '品': 824, '即可': 825, '特': 826, '温泉': 827, '计划': 828, '笑哈哈': 829, '春节': 830, '昨天': 831, '云南': 832, '遇到': 833, '25': 834, '天天': 835, '首': 836, '头': 837, '碗': 838, '也许': 839, '项目': 840, '精神': 841, '节': 842, '颗': 843, '看来': 844, '好多': 845, '表示': 846, '九': 847, '优惠': 848, '错过': 849, '度假': 850, '深圳': 851, '期': 852, '配': 853, '很好': 854, 'B': 855, '记者': 856, '卡': 857, '天津': 858, '不想': 859, '意大利': 860, '网站': 861, '恭喜': 862, '团': 863, '安全': 864, '婚礼': 865, '功能': 866, '不好': 867, '火': 868, '煮': 869, '型': 870, '尽': 871, '当然': 872, '评论': 873, '机场': 874, '雪': 875, '画': 876, '变成': 877, '行业': 878, '就要': 879, '政府': 880, '攻略': 881, '哟': 882, '处': 883, '季': 884, '据': 885, '游戏': 886, '还要': 887, '讲': 888, '整个': 889, '充满': 890, '想起': 891, '能力': 892, '真心': 893, '员工': 894, '风格': 895, '泡': 896, '欢乐': 897, '要求': 898, '之间': 899, '不如': 900, '实在': 901, '17': 902, '不了': 903, '一路': 904, '火锅': 905, '美景': 906, '英国': 907, '盐': 908, '移动': 909, '享': 910, '关于': 911, '再次': 912, '不少': 913, '乐': 914, '数据': 915, '当年': 916, '餐': 917, '早上': 918, '李': 919, '饭': 920, '亲们': 921, '云': 922, '平台': 923, '青年': 924, '唱': 925, '青春': 926, '到底': 927, '制作': 928, '估计': 929, '组': 930, '呵呵': 931, '依然': 932, '经常': 933, '想去': 934, '变': 935, '早餐': 936, '惊喜': 937, '丝': 938, '式': 939, '甚至': 940, '包括': 941, '蛋糕': 942, '保护': 943, '方法': 944, '看见': 945, '圣诞': 946, '点击': 947, '海南': 948, '西藏': 949, '宝宝': 950, '话题': 951, '来到': 952, '技术': 953, '愿': 954, '生日': 955, '选': 956, '周年': 957, '汤': 958, '德国': 959, '领导': 960, '白': 961, '大师': 962, '搭配': 963, '一生': 964, '光': 965, '经历': 966, '票': 967, '来说': 968, '夏天': 969, '楼': 970, '未': 971, '心里': 972, '南': 973, '仅': 974, '春天': 975, '姑娘': 976, '感': 977, '鸡': 978, '会员': 979, '明星': 980, '层': 981, '包袱': 982, '不管': 983, '搞': 984, '电视': 985, '左右': 986, '拉': 987, '完': 988, '某': 989, '最爱': 990, '下次': 991, '父母': 992, '竟然': 993, '多年': 994, '过来': 995, '东方': 996, '认识': 997, '合作': 998, '不断': 999, ...}
# 查询词语“地球”对应的词向量
word2vec.word_vec('地球')
<ipython-input-53-68063290bfef>:2: DeprecationWarning: Call to deprecated `word_vec` (Use get_vector instead). word2vec.word_vec('地球') array([ 0.594169, -0.568692, -0.776196, -0.324364, 0.016311, -0.225051, 0.420986, 0.43116 , 0.428265, -0.256983, 0.370124, 0.305862, -0.020324, 0.243007, 0.234712, -0.614161, -0.140672, 0.695551, 0.083963, 0.689722, 0.233259, 0.152571, 1.024671, 0.139783, 0.202395, 0.152258, -0.26312 , 0.102958, 0.248036, 0.131189, 0.275885, 0.082996, 0.491571, 0.225018, 0.266493, -0.420912, -0.471418, 0.809017, 0.141163, 1.130004, -0.261278, -0.856712, -0.400395, 0.198048, 0.05645 , 0.678296, 0.2836 , -0.130534, 0.805508, 0.093283, -0.646966, 0.529736, 0.779232, 0.551138, 0.174808, 0.247027, -0.373688, -0.576475, -0.325732, -0.082459, -0.47632 , -0.229266, 2.085353, 0.592716, 0.176334, 0.497692, 0.649653, 0.144183, 0.703805, 0.034919, 0.748792, 0.085221, 0.473858, -0.401072, -0.947229, 0.576858, 0.315247, -0.640268, 0.342379, -1.558704, 0.086163, 0.334141, -0.820931, -0.971747, 0.265167, 0.501708, -0.44508 , -0.201019, 1.137126, -0.524235, 0.358898, -0.225462, 0.265465, -0.206449, -1.366041, 0.199185, 0.268479, -0.708933, -0.317492, 0.005376, 0.459616, -0.052285, -0.337994, -1.220452, 0.09167 , 0.315118, -0.063763, -0.426036, 0.205738, 0.323416, 0.57625 , -0.164826, -0.525151, -0.1566 , -0.518378, 0.313611, 0.06549 , 0.194561, 0.198763, -0.622947, 0.689087, 0.152702, -0.230708, 0.393303, 0.288658, -0.469481, 0.101568, -0.559899, -0.239013, 0.04444 , -0.512653, -0.191998, -0.154456, 1.33964 , 0.32832 , 0.982129, -0.171914, 0.494866, 1.032956, 0.24044 , -0.905777, -0.272647, -0.161794, -0.211096, -0.920188, 0.985234, -0.044058, -0.38891 , 0.681905, -0.400282, -0.500766, -0.127555, 0.307823, 0.694935, -0.512435, -0.901273, 0.641044, -0.16945 , 0.632315, 0.272749, -0.694152, 0.686993, 0.262837, 0.59613 , 0.090302, 1.860848, -0.166851, 0.276754, -0.555203, 0.697493, 0.936634, 0.193718, 0.196608, 0.073793, 0.082054, 0.284785, -0.812682, -0.204861, 0.824906, -0.676902, -0.854978, -0.909203, -0.280592, -0.480879, -0.217995, -0.256043, 0.517293, 0.201248, -0.565574, 0.360344, 0.181837, -0.133435, -0.334987, 0.040227, 0.501909, 0.191659, 0.209178, 0.099721, -0.124362, 0.848287, -0.029316, 0.113569, 0.747785, 0.206726, 0.339223, 0.1414 , -0.828587, 0.846909, -0.486901, 0.042668, -0.349429, -0.0491 , -0.188621, 0.628018, 0.787592, 0.619018, -0.729359, 0.633972, 0.678034, -0.252666, 0.008 , -0.2895 , 0.995281, -0.099295, 0.846986, 0.657285, 0.736554, 0.796017, -0.118278, -0.671056, -0.684588, 0.024951, 0.084893, 1.330889, -0.907356, -0.469333, -0.937091, -0.621381, 0.037569, 1.131863, -0.082662, -0.200744, 0.316928, -0.207599, 0.280597, -0.627365, 1.029001, 0.589092, 0.556169, 0.513512, -0.441827, 0.05047 , -0.215281, -1.183606, -0.011877, -0.588229, -0.492906, 0.49306 , 0.377719, 0.569881, -0.647512, 0.328652, -0.105831, 0.318817, -0.024814, -0.292444, -0.298455, -0.460332, 0.08468 , -0.303269, -0.0561 , -0.369285, 0.584729, -0.051919, 0.328322, -0.826165, -0.872997, -1.262497, 0.06934 , -0.400124, -0.969265, -0.209392, -0.524788, 0.12054 , -0.275462, 0.336152, -0.465911, 0.601564, 1.018939, 0.239033, 0.63644 , 1.337305, 0.22037 , 0.3295 , -0.219874, 0.385543, -0.417511, 0.481287, -1.519231, 0.074622], dtype=float32)
# 查询与“地球”最相近的词
word2vec.most_similar('地球')
[('自转', 0.5498958230018616),
('@WWF', 0.5482718348503113),
('世界自然基金会', 0.5304360389709473),
('月球', 0.5204099416732788),
('太阳系', 0.5103502869606018),
('熄灯', 0.509930431842804),
('星球', 0.5082988142967224),
('8.214', 0.5052586793899536),
('地球日', 0.4897368550300598),
('小行星', 0.47547173500061035)]
通过以上操作我们可以得到微博文本的词向量表示。每一条谣言为一条样本数据。通过分词和去除停用词得到每一
条样本的文本特征,再使用已训练好的词向量得到上述谣言文本特征词的向量表示。
本节用以构造可以输入到机器学习模型与深度学习模型的样本矩阵。
每一条样本为50000*300维的矩阵。每一个词表示为300维的向量。50000为微博词汇库里使用频率前50000个词汇。
若某条数据有7个词汇,则该数据为50000*300维的矩阵,且只有7行非0,其余元素全为0.显然样本数据高度稀疏。
举例:
非谣:1 #星娱星乐#一个朋友和一个送外卖的帅哥之间的故事。温馨有爱,令人感动。
提取文本特征:星娱星乐 朋友 送 外卖 帅哥 故事 温馨 爱 感动,共9个文本特征词汇
由于词汇“星娱星乐”不属于频率为前50000词汇,去除该文本。剩下8个文本特征。
该样本为50000*300维的矩阵,其中只有词汇“朋友 送 外卖 帅哥 故事 温馨 爱 感动”对应的行向量非0,其余词
向量变为0.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。